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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分别是:《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 岀版社 
合作，陆续推出新的品种。我们希望本丛书单行本的出版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



往事如烟，光阴如梭。转眼间，出国已然十年有余。 
1996 年赴美 留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 :如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调查数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 
校社会研究院 (Institute for Social Research) 定量社会研究方 
法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Saence ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课(事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的文章;另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学 ” (Statistics 
for Social Science ) 从介绍最基本的社会研究方法论和统计 
学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线性回归模型、多元线性回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线性回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo ¬ 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归模 
型、多维列联表的对数线性和对数乘积模型、有关删节数据 
的模型、纵贯数据的分析模型，包括追踪研究和事件史的分 
析方法。这些模型在社会科学研究中有着更加广泛的 
应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励 
和支持我将两门课的讲稿结集出版，并帮助我将原来的英 
文课程讲稿译成了中文。但是，由于种种原因，这两本书拖 
了四年多还没有完成。世界著名的出版社 SAGE 的“定量 
社会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中 
山大学马骏教授向格致出版社何元龙社长推荐了这套书， 
当格致出版社向我提出从这套丛书中精选一批翻译，以飨 
中文读者时，我非常支持这个想法，因为这从某种程度上弥 
补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
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语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练，也有来自美国等地对定量研究感兴趣的博士研究生。 
他 们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊,应用社会经济研究中心研究 
员李 俊秀; 香港大学教育学院博士研究生洪 岩璧; 北京大学 
社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系 
讲师巫 锡炜； 中国台湾“中央”研究院社会学所助理研究员林 
宗弘; 南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜 念涛; 美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异,校对也未免挂一漏万，术语的标准译法方面还有很大的 
改进空间，但所有的参与者都做了最大的努力，在繁忙的学 
习和研究之余，在不到一年的时间内，完成了三十五本书、 
超过百万字的翻译任务。李骏、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外， 
还在初稿校对方面付出了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曾东林，协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 
工作。 

我们希望本丛书的出版，能为建设国内社会科学定量研 
究的扎实学风作岀一点贡献。 


吴晓刚 

于香港九龙清水湾 



本书编辑过程并不寻常 :作者 及编者都有所改变。我的 
前一任编辑，迈克尔 • 刘易斯 • 贝克，非常睿智地看到《广义 
线性模型导论》的价值。在2004年初从主编岗位退下之前， 
他看遍了计划书及先前的手稿版本。令人难过的是，乔治 • 
H. 邓特曼在完成他所认为的终稿后就过世了。进一步的修 
改由何满镐接手，他非常勇敢地接受挑战，并对原稿作出许 
多重要的修正。 

社会科学家所分析的结果变量可以是连续的或是离散 
的。在已出版的丛书中，有许多书目涉及需要处理一个连续 
的因变量(及一些重要假设)的模型，经典线性回归为这类模 
型的代表。除此之外也涉及因变量是非连续的，通常统计模 
型的对象为事件发生几率，但也可能是频率或是对数频率。 
在过去20年中，许多型态的 logit 、 probh (及对数线性)模型 
已经成为社会科学家众多分析方法中的标准，并且该丛书中 
也有多本涉及这些主题。 

连续结果变量及离散的因变量这两种模型间的关系，在 
广义线性模型的架构下变得清晰。在社会科学中，研究者对 
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在方程右方以: T 和/?线性组合所表示的可线性化的自变量 
比较熟悉。然而，位于这两种模型左方的因变量^可以是多 
种形式的，包括 metric 、 二元的、序列的、 multinomial 和计数 
的。再者，两种模型中的随机结果^可能服从正态、二项、泊 
松、 gamma 分布，且所有这些分布都属于指数家族分布 。一 
旦我们对于^的随机分布作出服从指数分布的适当假设后， 
剩余的任务便是指明随机变量的期望以及 x 和^线性组合 
间的关系。将期望的随机结果变量对应到 I 和的线性组 
合，是广义线性模型的一部分。 

本书的根本目 标是: 对于熟悉经典线性回归的普通社会 
科学研究者，要如何从线性回归模型推广到非连续自变量的 
其他模型，而不失两种模型间的共同根基及相似性？本书两 
位作者陪着读者走访这一过程，并在沿途中启蒙不识此道 
者，这也对丛书提供了有益的增补。 


廖福挺 
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广义线性模型，顾名思义，为经典线性回归模型的普遍 
化。经典线性回归模型假设因变量为一组自变量的线性方 
程，且因变量为连续且正态分布的，有固定的方差。自变量 
则可以是连续的、类别的或两者的 组合。 多元回归分析、方 
差分析及协方差分析皆为线性模型的经典例子。它们皆可 
被 写成： 

y = Po + ^ P J = 1 ^ i x i +e 

其中 J 是连续性因变量，不是自变量， e 为假设正态分 
布的误差。因变量由两部分组成：系统性 （ systematic ) 成分 

庳+ 误差成分 e 。 系统性成分即在任意组给定 

的 I 的值之下， 3" 的期望值 E (3>) ，即： 

£(》1 兄， …， X ,) = A ) + 

它是给定 X 』值的条件平均数 (conditional mean )。 回归 
分析的目的就是寻找一组以拟合优度来衡量具有高度解释 
力的自变项，即我们能凭借自变量的线性组合来解释 J 大部 
分的变异。如果回归 参数岛 很大，当曷的值从一观察值变 
化至另一观察值时， y 的期望值或^的条件平均数也将有很 
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大的变异。如果在条件平均数或预测值中的变异比在 e 中的 
变异更大，我们则能利用一个有用的模型，在给定自变量取 
值的条件下预测 J 的取值，以及了解不同自变量在解释因变 
量^的变异时的相对重要性。图 1.1 给出了一个简单的线 
性回归模型(庳=1，角=1.5)。我们通过观察对象的一个 
随机样本，收集 y 的测量值以及 X 】， X 2 , …，来估计回 
归参数灼。就观察目的而言，我们的观察对象通常是人，但 
在其他应用中，观察对象可以是任何事物,如树、牛，甚至河 
流。如果我们以，标示人，以_;标示变量，则可以通过最小化 
误差的平方和来估算/%。 

i=l 

在此， 小标〗 被用以强调自变量的值随着个体的不同而变化 
的事实。此回归参数的估计方法通常被称做普通最小二 
乘法。 



图 1.1 线性回归模型 
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这个线性回归模型自19世纪初步发展以来，对社会科 
学及其他科学特别有用。它很易于公式化，易于理解，并且 
回归系数易于利用普通最小二乘法估计。因此，它至今仍被 
广泛应用于各学科中。虽然它假设误差是正态分布的，但当 
误差接近于正态分布时，它仍是稳健的。 

然而，在过去几十年中，人们已经广泛地意识到线性回 
归模型的局限。它假设因变量为连续或至少是准连续的，如 
考试成绩、个人特质测量等。而且，它假设该连续变量至少 
是接近于正态分布，并且其方差并不是其平均数的函数。内 
尔得和韦德伯恩 （Nelder & Wedderbum , 1972) 提出了广义 
线性模型，后来发展为应用于非正态因变量的回归模型。 

在许多应用中，因变量是类别的或包含计数的，抑或为 
连续的但并非正态。一个类别的因变量的例子是二元变量， 
只有两个离散的值0或1，其中，1代表事件的发生（如从大 
学中退学），而0代表事件未发生（如未从大学中退学）。目 
标是要模型化感兴趣的事件的发生概率。在稍后会提及 
logistic 回归，它是广义线性模型的一种，适合此类型的数据。 

一个关于计数的因变量的例子是，一个药物滥用者群体 
在五年里的药物滥用事件 (treatment episodes )。 我们将再一 
次地展示泊松回归 （poisson regression ) ,这是适合此情形的 
另一种广义线性模型。在这两个例子中，因变量都不是连续 
的，更不是正态分布的，且 0-1 二元变量与计数变量都为非 
负数。然而，在一般回归中连续因变量可以是正值或负值。 

一个被广泛应用的非正态连续分布的例子为 gamma 分 
布。 gamma 分布是偏斜的 （ skewed )， 只有正值，且其方差为 
其平均数的函数。它可以用来模型化一般性的、类别的、只有 
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正值的因变量，如收人、生存时间及雨量。因变量为 gamma 
分布的模型可以被置于广义线性模型的架构之下。 

要注意，对于一个给定分布的因变量而言，自变量可以 
有许多种分布形式，且它们并不需要和因变量具有相同的分 
布。例如，与一正态分布因变量相关联的自变量可以包含许 
多不同的非正态分布，如均匀分布和多峰分布。如前所述， 
一 般回归假设: V 的平均值会随着自变量变化，但关于条件平 
均数的 e 的变异则维持不变。对于二元变量和计数变量来 
说，条件平均数的方差为其平均数的函数。如二元变量，因 
变量条件平均数为概率 〆 如事件1发生的概率），而此平均 
数的方差为 〆 1 一/0 .是平均数户的一个函数。因为平均数 
P 会作为自变量的一个方程而变化，此二元变量的方差也会 
如此。对计数变量而言，泊松分布常被使用，而此项分布的 
方差等于其平均数。因此，当泊松分布的条件平均数作为一 
自变量方程而变化，其方差亦是如此。广义线性模型在 
logistic 和泊松回归模型这种情形下，在模型的公式化及估计 
回归参数里，已明确地通过其概率分布体现了平均数和方差 
的关系。 

经典回归亦假设在回归参数中模型是线性的，即其假 
设期望值或条件平均数是回归参数的线性函数。例如， 
E(y | Xi , Xz ) = / 8 d +/? iXi +/32 X2 > 或者 / X > +/ M +/ 32X2 + 

尽 3XI +^ 4X2 +/^ XlX 2 。需注意，在第二个模型中，参数是线 
性的但自变量是非线性的。事实上，经典线性回归是一个广 
义线性模型的特例，其因变量的条件平均数直接被模型化而 
没有对条件平均数进行某种转换。对其他的广义线性模型 
而言，条件平均数无法被写成回归参数的一个线性函数，但 
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某些条件平均数的非线性方程则可以用参数的线性函数来 
表示，因此，称为广义线性模型。 

一个简单的广义线性模型的例子是泊松回归模型(图 1 . 2 )。 
所有广义线性模型的特性在这个例子中清楚可见。此外，也容 
易看出这个广义线性模型与经典回归模型之间的差异。 



图 1.2 泊松回归模型 


在这个泊松回归例子中，因变量的期望值或条件平均 
数为： 

A ; - eft 十2;=1巧〜 

其中， A , 为对于每一个个体；，泊松分布的条件式均数。它之 
所以为条件式的，是因为该平均数根据回归参数而变动，包 
含固定的热以及随着分析单位（如个人）而改变的 X ;的取 
值。我们要计算对于个体的条件平均数 A , ，需要代人他或 
她的自变量值，即，心表示个体；第；个自变量的值，并 
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估计未知常数的回归参数体。具体的估计方法将留待后面 
讨论。我们必须使用最大似然法而非最小二乘法。 

当因变量的分布是非正态的且它的方差为其平均数的 
一个方程时，最小二乘估计值就不再如同它们在正态分布 
中一样，等于最大似然估计值了。在此类例子中，似然函数 
必须用适当的概率密度表示，以获取适合的参数估计值及 
其标 准误。 使用最小二乘会导致错误的参数估计值及标 
准误。 

重点是条件平均数 并非房 的线性函数。如果我们对上 
述泊松回归模型的两边都取自然对数，就得到 log ,( A ,) = 

庳+2^/^“我们通过对条件平均数 A (如 log , ⑴)执行 
一个非线性转换，将泊松分布的因变量与自变量之间的关系 
线性化。可见 ， log e ( A ) 被称为泊松回归模型的标准连结方 
程。它转换了因变量的条件平均数 A ， 使得转换后的值 
log f ( A ) 为回归参数的一个线性模型。它之所以标准，是因为 
当 lo ge ( A ) 以指数型态表示时，它为泊松分布的自然参数。我 
们在后面也会看到，泊松变量的方差等于其平均数。因此当 
泊松分布的条件平均数增加时，与条件平均数相关的条件式 
方差也会随之增加。 

目前已有些关于广义线性模型的好书 （Fahrmeir & 
Tuz , 1994； Le , 1998; McCullagh &- Nelder , 1989； McCul ¬ 
loch &- Searle , 2001) ，但它们通常假设读者已有相当高程度 
的统计理解 ( sophistication ) 。本书仅假设读者具有基础的统 
计理解，并对多变量回归比较熟悉。有关基础微积分及矩阵 
的知识并没有被假设，虽然此书的部分章节中会涉及。如果 
具备太少或不具备这方面知识的读者可以跳过或略读这些 
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章节，也不会有太多的不连续性。此书的写作是非正式的， 
并且是从直观上来讨论重要的统计概念，目的是要告知读者 
相关的不同数据,并使其能选择适当的统计模型来分析数据 
及诠释结果。在附录中，我们还提供了如何运用 SAS 统计软 
件 (SAS Institute ，2002 ) 的内容，以拟合本书所讨论的广义 
模型。 



一些基础的模型化概念 
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我们在一般的多元回归分析的脉络下讨论统计模型的 
基本概念。假设因变量是连续分布的且对每一个观察值都 
有固定的方差，并且假设^的预测值，即条件平均数是回归 
参数的一个线性函数，那么，如果假设误差是正态分布的话, 
正常多变量回归模型就是特定广义线性模型中的一种。 

如果有三个自变量，模型可以写成 M =/3 b + i ax,i + 
lkX,2 +/3 3 X ,3 +6,其中；代表观察值，在绝大部分的应用中 
指单个人。假设 e , 有平均数0 及固定的方差此外，假设 
e , 与自变量不相关。此模型中系统性的成分为 /3 b +/ JiX,i + 
^ X l2 +/3 3 X ,- 3 , 它是％ 的期望值，或者说，是对第 f 个观察值 
在给定 Xn ， X , 2 , 兄 3 的取值下其因变量的条件平均数。我 
们以此 表示： 

E(yi I X,i f X,2 < X ,3) = fu = jh + /3 i Xa +体不2 +/?3 X ,3 

此模型的随机成分为 e ,。 我们可以看到，当自变量改变时， 
条件平均数 A 也会随之改变。相关的回归参数 A ，谗，庳 
表示每一个自变量与因变量^之间的相关性强度。一般而 
言，回归参数越大，相关变量与因变量之间的关系越强，假设 
自变量的方差大致相同。对于不同的观察值而 言，； 3是固定 
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的，各个观察值间变化的是 X ，并且影响条件平均数 P 的改 
变。参数沐被称为截距，是四个变量下多次原空间的^截 
距，即当所有自变量都为0时因变量的期望值。 

自变量可以是连续性的、类别性的或者是两者的混合。 
它们也可以是 X 的转换，如 X 2 和 log X ，或如 XiX 2 之类的 
交互项，只要模型可以用线性的参数型态所表示即可，例如： 

E(y I Xi , Xz ) = ^ y \ x t , x 2 , . x t x 2 

=/Sb + j 3 iXi +^ X 2 +^Xf 
+ J 3kX z 2 +j%X 1 X 2 



I 广义线性棋型导论 

第1节 I 作为类别变量的自变量 


类别自变量可以通过指标变量表示，这一点稍后会解 
释。指标变量定义了因变量的层级，或类别自变量各层级之 
间的差异，这些差异被显示出来以避免 x ' x 矩阵中重复的信 
息。我们由两个层级的类别变量的例子开始，然后再推广到 
有任意层级的类别变量。一个有两层类别自变量的例子是 
药物滥用的治疗变量，定义为两层——有治疗和没有治疗。 
我们可以通过0— 1的指标变量量化这个变量,其中，1代表 
这个人经历过治疗，而0则表示这个人没有经历过治疗。如 
果这是唯一的自变量且是正态分布的，例如，药物滥用人 
群对于药物滥用治疗功效的信念，则 J 的条件平均数可以被 
表 示为： 

E(y ! Xi) = /3b +p\X] 

其中，如果该人经历过治疗， Xi = 1，0则表示其他。对 
于经历过治疗的人而言， | 兄=1 ) =啟+历 （ 1 ) =戽+ 
历，而对于没有经历过治疗的人则是 E(y\ Xi = 0 ) = jb + 
A (0) =戽。因此 ，呙 代表了有治疗和没治疗者之间的条件平 
均数的差异。历有时会称为对 J 的效应，在这个例子中， 
就是指治疗。而被编码为0的群体则被称为参照组。可以 
任意将某个群体标示为1。注意，只需要一个指标变量来表 
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示该人归属于两类别中的哪一类。 

使用指标变量可以推及三层甚至更多层级或类别的类 
别变量(例如，种族群体被分为白种人、非洲裔美国人、亚洲 
人及其他——这个类别变量有四个类别）。在这里有四个可 
能的指标变量：而=1表示白种人，0 则否； x 2 = 1表示非 
洲裔美国人，0 则否； X 3 = 1表示亚洲人，0 则否； = 1表 
示其他种族类别，0则否。要决定一个人的种族类别只需要 
这四个指标变量的其中三个(如果我们知道一个人四个指标 
变量的其中三个的值，则另一个指标的值就已经被自动赋予 
了）。如果我们将所有四个指标都放人回归模型中，则作为 
一个组而言，它们是多余的，且从个人样本中无法估计与其 
相关的回归参数。故可以任意丢弃其中一个种族指标变量， 
而被丢弃的那一个指标变量就成了解释剩余三个指标变量 
的回归参数的参照组。 

如果我们想要检验种族对于呈正态分布的成就测验成 
绩的效应，就要将种族定义成前述的类别变量。我们舍弃 
X 4 这一代表其他种族群体的指标变量，则可以将控制了种 
族类别的 J 的条件平均数表 示为： 


E( y I Xi , x 2 . x 3 ) = x 2 . x 3 

—/X) +/?lXi 十 你 X2 + 体 X3 


对白种人而言 ， A = 1， x 2 = 0, x 3 = 0,所以其期望值为 


" y\X } = 1 . X 2 = 0 , X 3 =0 


=决+/?1(1)十谗（0)+啟（0)=泳+负。 


同样的，非洲裔美国人的 Y 的条件平均数为 


">• 1 Xj = 0 . = 1 . = 0 
^v|Xj=0, x 2 =o, x 3 =l 


=/ J ) + 啟，亚洲人的则为 
= 译+谗。因为其他种族类别在这三个指 
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标变量都取0值，其条件平均数为 ^ |Xi=0i X2=0 , Xj=0 = A)o 
因此，白种人的条件平均数 /3 b +两与其他种族群体条件平均 
数庳的差异为 A ，即呙为白种人与其他种族，也就是与参照 
组的平均数的差异。谗和谗分别为非洲裔美国人和亚洲人 
与其他种族的平均数的差异。我们可以通过/?!，体和角之 
间的不同组合的相减，来获得不同种族群体之间的差异。例 
如，非洲裔美国人平均数与白种人平均数的差异为（负一 
洚）。注意，在这个模型中，有四个种族群体及四个回归参 
数，译、负、怂和谗。含有类别自变量的模型，其回归参数的 
个数不可能超过用来定义类别变量的自变量数目。 

我们再看另一个稍微复杂点的两个类别自变量的回归 
模型，每个类别自变量都有两个层级。假设因变量^是一个 
测量药物滥用者治疗满意度的呈正态分布的变量。自变量 
为(两个)指标变量，取1表示病患属于住院计划 ( residen ¬ 
tial program ) ， 取0则表示门诊计划 （ outpatient program ) ， 而 
X 2 取1表示病患是男性，取0则为女性。主效应模型可以 
用 ■ X 2 ~ +体 A 表示，其中闵为住院计划 

(residential program ) 患者和门诊计戈 !]( outpatient program ) 
患者的条件平均数的差异。同样，体为性别效应，表示男性 
和女性之间的差异。而这两个差异，即参数负和谗，对其他 
遗留变量的效应都进行了调整。也就是说,/?!对于 X 2 的效 
应调整过了，而 谗对于 1的效应也调整过了。 

我们可以通过加人一个反映性别和这两种治疗变量交 
互作用项的参数改进这个模型。这种类型的交互作用可以 
通过两个指标变量的乘积项而形成，同时产生第三个变量， 
XiX 2 ，它也是一个 0-1 变量。当它等于1时，代表患者是一 
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名男性且属于住院治疗计划 （residential treatment pro - 
gram )，0 则否。此模型就变成 ^ ^ =/3 b+/?iXi + 
体^^+谗:^^^现在:^对^的效应取决于；^的层级。如 
果 X 2 =0,则谗的效应为历，因为与 A 
有关的唯一项为 / ax lo 如果 x 2 = 1，则&对 y 的效应为 
(肉 +/? 3 )，因为在这个模型中， AXi + 谗右= ( A 十啟)兄。 
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第2节 | 回归模型的必要成分 


这里，我们总结了回归模型的必要成分。首先，我们选 
择一个因变量>假设其为一组自变量的一个方程。自变量 
的选择是根据研究目的及研究者对于研究领域的实际知识 
来决定的。一个统计学家在这方面可能没有太大帮助，然 
而，他可以就研究设计提出建议,特別是样本数、用来选择研 
究参与者的概率模型，以及广义线性回归模型的种类。 

其次,通过比较对应的方差，我们得出不同模型的吻合 
度，直至找到一个与因变量相契合的最优模型，这一模型包 
括了一组相对较少但在概念上颇有吸引力的自变量。离差 
是对回归模型拟合优度的一种测量。每一个广义线性模型 
都有关于它本身的一个特定离差。对于以正态分布为基础 
的回归模型而言，就是大家所熟悉的误差平方和。关于离差 
将会在后面做更加详细的讨论。 

通常，我们最初的一组自变量包含了那些回归参数不具 
有统计显著性的自变量的集合。通过比较各模型的拟合，我 
们可以减少此模型中的参数数目。这个模型一旦被确定，我 
们的兴趣则集中于回归参数的估计值及其估计标准误。回 
归参数估计值表示各自变量在解释因变量的变异上的相对 
重要性。 
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总之，对广义线性模型而言，我们需要指明因变量的概 
率分布。到目前为止，我们已经讨论过正态分布和泊松分 
布，但还有其他的分布形式，例如二项分布，我们将留待后面 
做详细讨论。另一个需要我们指明的重要成分是回归方程， 
它设定了条件平均数如何与自变量相关。我们讨论过在正 
态和泊松分布下因变量的回归方程，我们将在后续内容讨论 
其他 形式。 以概率分布形式呈现误差分布的形式，如正态、 
二项、泊松及其他，以及回归方程的形式，对于指出适当的对 
数似然函数是必要的。对数似然函数等同于概率密度函数 
的对数，然而在前者中,样本数据被视为固定的且参数为变 
量，但在后者中，参数则被视为固定的且数据会变化。样本 
的对数似然函数会被用来获取最大似然回归参数估计值及 
它们的标准误。除了正态回归模型的最大似然估计值外，最 
大似然估计值因为方程系统的复杂性,不能以标准分析方法 
解岀，而需用迭代加权最小二乘法 （iterative reweighted least 
squares ) 的计算机演算来执行参数估计。 
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多元回归分析为一种广义线性模型，其条件平均数是回 
归参数的一个线性函数。这跟那些条件平均数的函数是回 
归参数的一个线性函数的广义线性模型有所不同。平均数 
的函数被称为连结函数。例如，泊松分布的连结函数为 
logd / i )， 可表示为回归参数的一个线性函数，即 log〆 "） = 

对正态分布而言，连结函数即为同一性 
( identity ) 函数 gC ") ="。多元回归可被写成： 

E(y ! Xi , X 2 , X P ) = ^ = Ik + i^jXj 

如果我们将一个有关截距参数； 3 h 为 1 的列向量 (column vec ¬ 
tor ) 包含进来 ，则模型可 以更完整地表 示为： 

E(y \ X 0 , Xi , X 2 , X p )= h = 

) =0 

其中 Xo = 1。误差 y — P = e 被假设是正态分布且有固定方 
差的。 

我们通过查特吉和普赖斯 (Chatterjee &• Price , 1977) 的 
一个多元回归分析实例来讨论广义线性模型。此根据来自 
一个大金融组织的职员所做的调查数据。该调查问卷包含 
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职员对其主管的满意度。其中一个问题是有关主管整体表 
现的测量。另外的问题则涵盖了职员与其主管在特定活动 
中的互动。此研究目的是要解释特定的主管特质与职员对 
主管的整体满意度之间的关系。 

在这个例子中，有六个问题被选择为可能的解释变量。 
因变量是职员对主管的整体工作表现的评分。它是一个5 
分的尺度，从 1( 非常满意）到 5( 非常不满意）。而六个自变 
量也是以5分的尺度评价主管的行为。 A 处理职员 抱怨； 
x 2 不允许 特权; x 3 学习新事物的 机会; x 4 根据绩效 加薪; 
x 5 对不良表现太过 挑剔; x 6 升迁到更好职位的速率。这些 
自变量可以做如下 分类: 一组是有关职员和主管间直接人际 
关系的变量， x 2 和； c 5 ，另一组则是考虑工作整体而非人 
际关系的 x 3 和 x 4 两个变量，剩下的变量 x 6 不牵涉对主管 
的评价，而是职员对其自身在公司中升迁看法的一般性测 
量。数据从该组织所有部门中随机挑选30个部门收集而 
来，每一个部门大概都有35名职员及一名主管。 
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第1节 | 假设与模型方法 


注意，因变量只会取五个值且在这五个值上的分布是偏 
斜的，因为大部分主管较容易获得好评而非劣评。因此这违 
反了多元回归分析中的普遍假设 :因变 量是一连续变量且为 
正态分布的。即使背离从正态性出发的假设，只要因变量有 
数目相对大的值且其分布相对来说对称，则此模型仍然是稳 
健的。 

基本多元回归模型亦假设横跨各观察值的因变量，在此 
例子中指的是职员，是各自独立的。这个假设也可能被推 
翻，因为同一部门中的职员彼此之间可能相同，即同一部门 
内各职员对于因变量的回答可能会彼此相关，因为他们都受 
到其部门的同样一组影响。然而，我们不会期望不同部门职 
员的因变量回答是相关联的。在同一群体或聚类 ( cluster ) 中 
的个人回答之间的相关被称为组内 （ intmdass ) 相关。基本 
多元回归模型可以被修正，以说明在回归参数及其标准误的 
估计中所存在的组内相关。回归模型通过增加随机成分来 
修正，并且被视为混合效应模型。这类模型在本书中不再进 
一步讨论。 

需要特别注意的是，对于自变量的分布并没有任何假 
设。它们可以是连续的、离散的、高度偏斜的或彼此相关的。 
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因此，在主管表现的例子中，自变量并没有问题，即使它们是 
离散的甚或是高度偏斜的.对于任何一种回归模型来说都 
是如此。 

上述例子中所存在的问题是:关于因变量的非正态分布 
及在相同部门内部各职员回答的组内相关。然而，查特吉及 
普赖斯 (Chatteijee Price , 1977) 通过汇总30个部门间的 
个人层级数据及在多元回归分析模型中使用部门作为分析 
单位，改善了他们的研究实例中所存在的这两个问题。考虑 
到他们对预测部门主管整体绩效的兴趣，这一处理方法显得 
更为合理。对于30个部门来说，每个部门都只有一名主管， 
故通过分别在每一个主管所在的部门中，汇总该部门内约35 
名职员对于六个变量的看法，进而预测该主管的表现是合理 
的。相对于简单地在各个部门内选取一些职员来对其主管 
的整体表现评分，这个方法更加可信。这是因为职员的偏误 
及评分误差在大样本的评分者中易于被抵消。然而，要注意 
到汇总各个部门间的数据有可能会遗失部门间每个人回答 
变异的信息。 

作者利用下述步骤汇总个人层级的数据至部门。为了 
反映六个自变量和一个因变量，针对这七个项目分别产生一 
个二元变量，即把(原来的 )5 分回答尺度重新组合为两 类:好 
评及差评。好评为 1( 非常满意）或 2( 满意），差评则为其他 
剩余的回答3、4或5。对30个部门都计算出七个项目好评 
的比例。因此，我们可将得到的代表30个部门对其主管整 
体表现好评比例的列向量作为因变量，并且获得一个代表30 
个部门六个自变量的好评比例的 30( 列 ） X 6( 行)的矩阵。以 
这30个部门为分析单位的数据被用来估计六个回归参数及 
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其标准误。 

我们将在后面看到，由于因变量是对主管整体表现好评 
的概率， logistic 回归分析可以被用来模型化六个自变量与主 
管表现之间的关系。 logistic 回归被用来模型化一个特殊反 
应发生的概率——在这个例子中，就是对主管的好评。 
logistic 函数为非线性的。然而，大多数部门的主管好评比例 
(概率)都落在 0. 40到 0. 60的区间中，在此区间 logistic 函数 
大致是线性的。因此多元回归模型在对这种数据进行建模 
时可能是最佳的选择，且较 logistic 回归模型更容易解释。 
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第2节 I 回归分析结果 


多元回归分析的结果见表 3. 1，该表指出只有(关于 
主管如何处理抱怨的满意度）是高度显著的，并且它有最大 
的回归参数估计值。回归参数 0. 613表示，在满意其主管处 
理抱怨的职员百分比中每增加一个单位，就会使主管整体好 
评增加 0. 613个百分点。也就是说，增加1 %会造成3 ■增 
加 0.613 %; X !增加10个百分点则会造成^增加 6. 13个百 
分点。这表明，当其他五个自变量保持不变时， X !和因变量 
之间有一种强关系》数值次大的回归参数 X 3 ( 学习新事物 
机会的满意度）为0.320。虽然它在 0.10 水平上统计显著， 
但在传统的 0. 05水平上并不显著。 


表 3.1 预测正面主管评价的回归参数估计值 


变 量 

回归参数 

标准误 

t 比率 

显著程度 

K 抱怨） 

0. 613 

0. 1610 

3. 81 

0. 001 

x 2 ( 特权） 

-0. 073 

0. 1357 

-0. 54 

NS 

&( 学习） 

0. 320 

0. 1685 

1. 90 

0.07 

x 4 ( 加薪） 

0.081 

0. 2215 

0.37 

NS 

入5(挑剔） 

0.038 

0_ 1470 

0. 26 

NS 

入6(工作升迁） 

— 0. 217 

0. 1782 

— 1.22 

NS 

截距 

10. 787 

11. 5890 

0. 93 

NS 


注： K 2 = 0. 7326；残差标准差= 7. 068； \S =在 0. 05水平上不 显著。 



广义线性模型导论 


第3节 | 多元相关 


多元回归相关 CR 2 )0. 7326代表自变量解释因变量变异 
的比例。它被定 义为： 

^2 _ 2 — error sum of squares 
total sum of squares 

其中，误差平方和 （Error Smw of Squares ， ESS ) 被定义为 
2" = i ( ^- J .) 2 . 5 -为根据回归模型对 v 的预测值，即 
yi —择 o + ^]; =l P jXij 。 总平方和 （ Total Sum of Squares , 
TSS ) 被定义为 (艽 一刃 2 ， i 是因变量的平均数。如果 
£ SS 比 TSS 小，则 i ? 2 会更高。多元相关只=/0326 = 
0.856 可以被定义为 y 和 i ； =心+ 2^11之间的 
相关。 
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第4节 | 假设检验 


通常，最初被应用的一个标准检验是用于检验虚无假 
设，即所有回归系数都为零。在我们的例子中，虚无假设为 
负=/?2二典=庳二译=庳=0。注意，我们不将截距参数 
/3 b 包含在检定中，是因为我们只关注六个自变量与因变量之 
间的关系。 

要检验虚无假设，即一组回归参数等于零，我们可以通 
过估计两个回归模型的误差平方和开始。一个包含全部回 
归参数的模型被称为完整模型 FM )， 在我们的 
例子中，即要包括所有六个自变量。另一个模型被称为简化 
模型 (Reduced Model ， RM ) ，它去除了参数被假设为零的自 
变量。整体检验的简化模型，即六个自变量和主管评分间没 
有关系，要去除六个自变量并且只在简化模型中保留截距。 
简化模型中的截距即为因变量的平均数 i 接着，我们要计 
算两种模型的误差平方和 £SS(FM) 和 ESS ( RM ) ，计算差异 
ESSCRM) — ESS(fM), 并且用它除以完整模型和简化模型 
之间的参数数目——分别以 P / 和 h 表示差异。在我们的 
例子中， Af = 7 . pr = lo 这个比率如下所示： 

ESS ( RM )- ESS ( FM } 

Pf — Pr - 
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即为一个 F 比率的分子。 ESS(i?JW) 至少会和 ESS ( FM )- 
样大，因为它用较少的自变量去预测 V ——在我们的例子 
中，简化模型中不包含任何自变量。如果这个取值为正数的 
差异很小，则表示简化模型同完整模型一样适合该数据。我 
们需要一个项目测量这个比率的差异。这个项目形成 F 比 
率的分母，即为单纯将 ESS(FM) 除以其自由度，也就是样本 
数目《减掉在完整模型中估计的回归参数数目。在我们的 
例子里， (n — pf ) = 30 — 7 = 23。 

因此， F 比 率为： 

ESS ( RM )- ESSiFM ) 

Pf - Pr 
ESS ( FM ) 
n ~ Pf 

分子项的自由度为 （ A /_ — / V )， 而分母项的自由度为 U — 
Pf ). 在虚无假设下简化模型外的参数为零， F 值为具有前述 
分子和分母自由度的分布。我们通过数据中计算的 F 值以 
及分子和分母自由度，可在 F 表中查询相应的值。查特吉和 
普赖斯 (1977) 计算关于虚无假设，即所有回归参数都为零， 
或者同意义的，在六个自变量与整体主管绩效评分间没有线 
性关系的 f 。 

对于这个 F 检验，其成分为 ESS (™) = — 

yi) 2 — 1149； ESS(RM) — 2 ;二) 2 — 4297 ； p f — 
p r = 1 — l = 以及 w — 户/ = 30 — 7 = 23。这会产生一个 
F 比率： 


4297 - 1149 


1149 

~ 23 ~ 


= 10. 5 
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分子和分母的自由度分别为6和23。在一个有着6和23的 
自由度的 F 表中查询这个 F 值，显示它在 0. 001的水平上显 
著。因此，我们可以拒绝所有回归参数都等于零的虚无假 
设，并得出结论，相对于简化模型 EO ) 二 P =/5 b ，完整模型 

E(y | Xi , X 2 , X P )=^ = ^o + XJftX , 更好地拟合了 

麵。 ) 

得出上述结论是因为两个回归参数和 X :在 0. 001水平 
上都是显著的。作者通过画出标准化残差 ( J 轴）及拟合或 
预测值 ( x 轴)来检查模型假设的违反或模型的错误设定。标 
准化残差为 W — 1除以误差或残差的标准差 ，即： 

v n — pf 

如果模型的设定正确，则标准化残差的散点图应该显得较为 
随机，没有系统性的型态，且95%的残差应落于 一2 和2之 
间，或者是在残差平均数（假设下为零）的两个标准误范围 
内。它们的残差图显示没有模型设定错误的证据。 

查特吉和普赖斯 （1977) 也勾画了标准化残差和最重要 
的自变量乂：的图形。散点图看起来是随机的，没有大的标 
准化残差，并且没有证据显示任何系统性的弯曲。弯曲可表 
示在回归模型中需要加人 X 2 这一项目。 

回到我们的完整模型，相当清楚的是，只有 A 和 X 3 看 
起来是重要的。因此，检定典~ /i ~ — 0 的虚无假 

设看似很合理，以决定我们是否可以简化这个完整模型。 

为了检验这个假设，我们用前述相同的 F 检验过程，比 
较完整模型 pt — ^0 + (3 lXl + /?2 X2 + /?3 X3 + /i X4 + jft X5 + 
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^Xe 和简化模型 /U = jh [hXi + P3X3 。 

因此，我们再次计算 ESS ( FM ) , ESS ( RM ) , p f —九和 
n ~ Pf , 并且将它们代人 F 比率的方程中。可以 得到： 


(1254. 6- 1149)/4 
1149/23 


= 0. 528 


有着4和23的自由度并且有一个很小的、在 0. 05水平上不 
显著的 F 值。因此，我们接受虚无假设，即四个变量 X 2 、 
X4 、 x 5 和； f 6 并不需要包含在这个模型中，从而接受较简单 
的简化模型&，又 3 )=戽+/?1义 1 +谗；(： 3 ，因为它优于 
较复杂的完整模型 £(: V H ， X 2 , X 3 , X 4 , X 5 , X 6 )=/5 b + 

此简化模型的 i ? 2 为 0. 7080,较完整模型的 （ i ? 2 = 
0.7326) 稍小。 A 的回归参数最为重要，在简化模型中为 
0. 643,而在完整模型中为 0. 613。注意，这个模型中的所有 
自变量都是连续性变量。反映部门归属的类别自变量也可 
以被包含在模型中。例如，我们可以有一个 0—1 指标变量， 
1代表部门执行会计功能，而0表示其他。我们也可以通过 
纳人假设互相作用的变量间适当的乘积项，在模型中加人交 
互作用项。然而，我们必须谨记，在只有30个观察值的情况 
下，我们不能拟合很多参数。否则，我们将冒过度拟合的风 
险，也就是参数过多并且超出了数据所能支持并导致合理推 
论的范围。在极端的例子中，如果我们的模型包含了 30个 
参数，则模型完全可以拟合数据，然而，我们并不能凭借和观 
察值一样多的参数来简化任何事，这会造成 ESS 没有自由 
度，且导致无法进行备择假设检验。即使 £ SS ( FM ) 有着很 
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小的自由度， F 检验仍将有低效力。要建立一个好的回归模 
型，需要从指明一个因变量及一组自变量开始，并被一组良 
好阐述的假设所驱动，而这又依赖对研究主题的认知。研究 
者随后才能估计模型参数并衡量拟合优度。最初的完整模 
型则会通过假设检验而去除一些参数予以修正。回归诊断， 
如残差图，有助于模型的其他修正，比如增加 X 2 项或交互作 
用项。如果是时间序列数据，则残差可能会彼此相关，因此 
修正的模型必须要能考虑到在回归参数估计中的相关残差 
且对它们做各式各样的假设检验。 




广义线性模型的基本原则 
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第3章已讨论了我们都熟悉的一个广义线性模型，也就 
是经典多元回归模型。这个模型可以被推广至其他情况，即 
因变量是离散的、非正态分布的，且其方差取决于其平均数。 

广义线性模型牵涉到以一组自变量或称协变量的线性 
函数来预测因突量的条件平均数或条件平均数的某种函数。 
也就是说，对于每个观察值或研究对象来说，其期望值或因 
变量的期望值的某种函数，是根据其自变量或协变量而定 
的。除了正态分布外，广义线性模型的误差方差是其平均数 
的一个函数。例如，一个0— 1二元变量有平均数; T ， 表示事 
件1发生次数的比例，且其方差为 ； T (1 一; T )。 要估计回归系 
数及其标准误，我们需要指明误差项的概率分布，由此我们 
可以指明适当的似然函数并用该似然函数解出回归参数。 

广义线性模型可以处理因变量的条件平均数为回归参 
数的非线性函数和因变量为非正态分布的数据。广义线性 
模型的两个成分为连结函数与误差分布。连结函数是因变 
量平均数的转化,而此转化的变量为回归参数的一个线性函 
数。例如，泊松回归模型的连结函数为 gifjd = l 0 g f (; U )， 所 
以因变量 〆 / i ) 是与自变量相关的回归参数的一个线性函数, 
也就是 log〆 "） = 公尸 ㈣ 。 注意 ， g (") 是一个回归参数的 



第 4 章广义线性模型的基本原则 


35 


非线性函数，因为对方程两边都取幂会 导致： 

fJi = e ^Uo^i X j 

此泊松分布的对数连结函数也被称为标准连结 (canonical 
link ), 因为它是当泊松分布以指数形式表示时，变成标准参 
数0的/ ■( 的转化;也就 是 〆 / /) = d = l 0 g e ( fl ) 0 此连结函数最 
常被用在泊松回归中，虽然其他的连结函数也是可能的。例 
如，我们可以用非标准的同一性函数 〆 ^) = ^。在有些例子 
中.一个非标准的连结可能比标准连结更好地拟合了某种特 
别的数据。我们在后面会看到，广义线性模型假设因变量分 
布是指数家族中的一员。当分布以指数形式表示时，每个指 
数家族中的分布都有其自己的标准参数0为其平均数的函 
数。当然，函数 0(") 对不同指数家族中的成员都不同。如泊 
松分布，我们知道它是沢"）= log e ifx ) 0 有关 logistic 回归的 
二元分布 则是： 


d ( fl ) = log ,, —^― 

1 一" 

对于正态分布，沢； i ) = P ——也就是说，它是一个同一性 
连结。 

除了正态分布以外，广义线性模型的第二个成分，是因 
变量的方差为其平均值的一个函数。这是指数家族成员的 
一个分布特性，也是广义线性模型背后的响应分布。泊松分 
布的方差为 Var (. y ) = / i , 而二元分布的方差为 Var (： y ) = 
"(1 — ")。对正态分布而言，方差是固定的，即 Var (_ y ) = ( T 2 。 

广义线性模型假设因变量的观察值力，災.…，> 是相 
互独立的，且共享指数家族中相同形式的参数分布。观察值 
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的平均数％，#，…， a 可以不同，但每个观察值必须都能 
由相同的概率分布所产生(例如，都以泊松分布产生）。这意 
味着每个观察值的平均数不同，因为广义线性模型假设平均 
数或平均数的某种非线性函数与一组自变量有关。也就是 
说，假设我们有一组 b + i ) 回归参数庳， A ，…，你，且有一 
组相关的自变量而， x 2 , …， Xp 则适当的连结函数为 

«■(") = S 厶。 

其次，我们检视广义线性模型所立足的、来自于指数家 
族概率分布的特性。 
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第1节 I 指数家族分布 

. —一 > . - — 1 ^ ~ 


广义线性模型涉及可以用指数形式来表示的概率分布- 
这些分布为指数家族分布的成员。当以指数形式表示时，有 
一个标准参数为平均数的函数，且方差也是平均数的一个函 
数。例如，泊松分布的标准参数为 log / p ) ，分布的方差为^ 
正态分布通常表 示为： 

I 1 (.、.— 〆 

/0 一 2 卜7^了 

其中 W 和《7 2 分别为分布参数的平均数和方差。注意，分布 
已是部分为指数形式。使用代数方法，可以表 示为： 


( W —+) v , 

f(y I "， /) = e~ 2 ^—"HJ 十 1 。〜 (2® 2 >) 


所有指数家族的分布都可以表 示为: 


0被称为标准或自然参数，为分布平均数 (//) 的一个 函数; 
6(0) 为标准参数的一个函数，也是平均数的一个函数，因为0 
为平均数的函数4为离散参数，扮演着定义^的方差的角 
色; 而 c (3 N 幻为观察值及离散参数的函数。通过等化以指 
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数形式表示"和^的正态分布 /(M/i, ( J 2 ) 的项目，与以标准 
参数0和4表示的指数型态中的项目，我们便可以确定对正 
态分布而言，这些参数 (0 和彡)及函数 6( 仍和彡)的含义。 
我们发现/ ■< = A «扔=萨/2, 0 = 02 ，且： 

c(y- ♦) =— y ( ^■ + loge ( 2m 2 )) 

一个重要的成分0为 P 的函数，以 0(") 表示，被称为标准连 
结函数。它连结了平均数和标准参数，并可以用回归参数的 
一个线性函数来表示。另一个指数家族分布的重要成分是 
方差函数，也就是 6( 仍的二次导数 b , r ( 6 ) e 对正态分布而言， 
二次导数为 6(60 =庐/2 = 1。此分布的方差为 /'( i ?) ，沪为 
离散参数，且6"(0)为《仍的二次导数。对于正态分布 ， f = 
o 2 且方差函数6"(0) = 1 ， 故正态分布变量的方差为它 
是一个常数且不是平均数的一个函数。 

每个指数分布家族中的成员都有其自身的连结函数 
汛和方差函数6"(仍。方差函数也可以用平均数 "来表 示， 
齿为 d 为 y 的函数。以 VQ) 来表示，它说明方差为 p 的一个 
函数。我们如果检验泊松分布并以指数形式来表示，故可以 
确定 0(//) 和 b "( d ), 泊松分布有一个参数〆也常以 A 表示）。 
泊松分布以先前讨论的平均数表 示为： 

/(3 1 I ") = 

“！”记号为阶乘，且>! l)G — 2)(： y _3) …1。泊松分 
布的指数形式可被表示为 /(J I ；«) = 0 

将此与标准指数形式 /( 州纟，彡)等化，我们得到 f ( y \ e , 
= e yd ~ e — lo W ! 。因为汐 = log #， b(8) — e d , 4> = 1 且 
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c(y, d) = \og e y ! „此标准连结函数为0= log e (//) ， 方差函数 
为6"(0)。用一个 y 的函数表示的方差函数是同一性函数 
V { fj ) = n ， 因为 e s = e log ^ ="。因为必=1，平均数为 "的泊 
松分布，其方差也为^泊松分布不像正态分布那样涉及一 
个未知的离散参数，因为它是一个等于1的常数。这里说明 
的原则可以应用到指数家族的其他分布。对所有的例子而 
言，标准参数可以被定义为自变量的唯一线性函数，即0 = 
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第2节 I 经典正态回归 


对正态分布的因变量而言，我们通常使用同一性连结—— 
也就是 g ■(/ •<) = fio 注意•正态分布的标准参数为所 
以 g (^)=^ 我们直接模型化 p 而不用对 p 做任何转换。因 
此 + …+ p p Xp + e，_y 的期望值或"为 /?o + 

谇义十… +^ P X P , 且假设 e 服从均值为0、方差为 a 2 的正态 
分布。 s 的方差并不像其他的广义线性模型那样根据平均数 
而定; 对于所有的观察值而言，它（方差）被假设为是固定不 
变的。此模型的回归参数可以被解释为.在其他自变量固定 
的条件下，相对应的自变量中每一单位的增加所导致;/增加 
的效应。 

对于其他广义线性模型，如 logistic 和泊松回归模型，回 
归参数表示经由连结函数(也就是，平均数的某种非线性转 
换，且并不是平均数)相对应自变量的每一单位的增加所造 
成的增加效应。 
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第3节 I logistic 回归 


logistic 回归被用来模型化某事件的概率，比如，以一个 
学生特征函数表示的 退学。 logistic 回归的标准连结为 logit , 
即 logj ^， 其中; r 为二元因变量的平均数或事件发生的概 
率。因此， log ^- 可表示为自变量的一个线性函数，即 
log 穴 = jh +/3 iXi + …+ (3 pX p ,其中 ^ b ，/3 i ， …， 办为 
回归系数。在似然函数中运用的误差分布为二项式分布。 
对二项式分布而言，方差为平均数的函数,它等于— 7 T )。 
虽然这是对于一个 logistic 回归模型的典型设定，但也还有 
其他设定方式。例如，可以运用 probit 连结函数，但如果有 
证据显示较二项式分布能更多地解释二元因变量的变异的 
话，则可以运用 beta 二项式误差分布。 

对于 logistic 回归模型 ， log n = jh 十 /3 iXi +…+ 

丄 —TT 

l ^ pX p , 所以对 logit 的效应是叠加的。由于难以解释对数 
发生比 （log of odds ratio ) 的叠加效应的大小，因此，我们通常 
对前述的方程两边指数化可 得到： 

― 5 — = e ? ： !+P\ x i^'" + ? P x p = e ^\ x \ … e Pp x P 

l — K 

我们可从此转换看出，被指数化的回归参数 M 现在表示，在 
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其余自变量固定不变的情况下， X ,每一单位的增加所导致 
的发生比的倍数效应。而 M 项表示发生在 x , + i 值上的二 
元结果的发生比除以发生在；0值上的发生比。注意，我们 

是模型化+而非; T 。 

丄一 7T 
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第4节 | 比例风险生存模型 


生存模型牵涉以自变量的函数来模型化一个事件发生 
的时间(例如，死亡、退学或找工作）或某事件发生的时间的 
某个函数。我们将模型化一个以时间为自变量来表示风险 
的风险函数 Mr )。 风险是在一给定时间内某事件发生的即 
时概率。一个常用的生存时间数据的模型为 Cox 比例风险 
模型,定义为 / i (0 = ho ( t ) eH X ' 十…十 W 其中如 （ Z ) 被称 
为在时间 f 的基线。它是在没有协变量下的风险函数。如果 
我们将两边除以如 （?） ， 就 得到： 

ho(t) 

可显示一比例词从何而来。对于每个人而言，跨时期的 
e nx ，...+〜 x p 是固定的，也显示在每一个 f 值下，任何个人 
的风险函数是基线风险的一个固定比例。对 Cox 比例模型 
两边取对数，则风险的对数可以用自变量的一个线性函数来 
模型化。 




最大似然估计 
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最大似然估计基于估计参数——在我们的例子里是估 
计回归参数——应该是那些可以极大化说明样本数据的密 
度函数值的参数。也就是说，根据样本数据，最大似然估计 
会找到最可能产生样本观察值的参数值。当在给定数据下 
以一个参数的函数表示此概率密度即称为似然函数。密度 
函数和似然函数是相同的，但前者视参数是固定的且数据是 
变化的，后者则视数据是固定的而参数是变化的。最大似然 
估计值为那些最大化似然函数的参数估计值。在一些例子 
中，它们可以通过偏微分分析出来。在较为复杂的例子中， 
可能无法直接分析求解，而必须使用计算机运算。最大似然 
估计值有很强的统计特性，如有效性。 

最大似然估计需要指明假设被用来描绘样本数据的一 
个概率密度函数。由于正态回归模型概率函数的特殊数学 
形式，回归参数的最大似然估计值等同于最小二乘估计值。 
但是，对于其他广义线性模型来说并非如此。 

我们已讨论过的回归方程需要凭借一个由随机样本估 
计得出的总体参数。为此，我们需要一个统计模型，指出数 
据是如何产生出来的。对于正态分布的数据，正态分布随机 
变量3<的密度函 数为： 
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f(y \ pt, a 2 ) = 




第 z + 个样本成员的 J 的观察值为 V ，且假设其分 布为: 


f(y t 


\ fiii a 2 ) = 



即对于每一个观察值3^，假设是从一个平均数为~的正态 
分布中产生的，但每一个观察值有着固定的方差</，因为在 
c 2 上没有小标“这是符合正态回归假设的，即条件平均数 
在不同个人间有所不同，为一协变量函数，但 W 的方差则固 
定不变。 

现在，假设^为回归参数的一个线性函数，则该回归模 
型可以表 示为： 


因此.我们把％的密度表 示为： 

^ ] - [ 4 - - 

fhi I 戽，…，办， ff 2 ) = . ? 

v 2 m z 

为了节省空间，我们将 /5 b ， …. 办集 体表示为一个列向量/?。 
因为％ 被假设为是相互独立的，样本观察值的联合分布可 
表 示为： 


f(yi > yz > •••< y« \ a 2 ) 

=f(yi \ P ， <^)f(y2 \ P ， o 2 ).../(> I p, a 2 ) 

其中 „ 为样本数。因此： 
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f(yi ， y2 ，…，> I P ， tr 2 ) 


\ flrn 1 


X 


X 


\/2 m 2 


! (■>.， - (ji + S 二: ” 2 

: e - 士 1 

(y, + 




<>. 一 ( 沃 ■*" H P ,.i ^ X " ),2 


\/2 m 2 


可以被缩 写为： 


n 


<. v . — (/3. T 1,2 


\J 2 m 2 


其中 ITU 表示 》 个概率密度的乘积。因为常数一^■自 
; V 2 k(T 

乘^次，联合概率密度的一个因 素为： 


、 y 2m 2 ' (2m 2 ) n 2 

其中指数 1/2 表示取平方根。另一个牵涉〃个指数的乘积 
的因 素为： 

. (彳- . 乙 ; 


由于指数可以被加总， 

丄 ▽ n 

e~ 2 

因此， 

/( ： yi ，艽 ，…，> I P ， o 2 ) 


.■+ - (4 _ . 办入 V): 


(2w 2 ~) n 




-(汾 — 
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以矩阵形式可以 写成： 

办 = -—?— 

其中，X是一个对 p 个自变量观察值的《(/> + 1)矩阵，且有 
一前导的列向量 （leading column vecter) 1对应于截距参数 
庳，即为列向量的第一个要素。 

联合概率函数 o 2 ) 为给定参数（译，负，…， 
l^py = P 的条件下随机变量(: yi ，％，…，： y n )' = y 的一个函 
数。为了推论仏我们将从样本中产生的^值视为固定的，且 
/(/»，/ |_y) 为 /J 的一个 函数。 此以 L(/J ， 而非 
表示。我们称之为似然函数。注意， f ( y \ p ,^) = L ( p , Aj )。 

我们可以估计最大化似然函数 L(/}，ff 2 |j) 的回归参数 
P ， 以 哀 表示。这些估计值被称为最大似然估计值 (ML£)。 
它们是最可能从样本观察值 J=(M， 力，…， >) '中所产生 
的回归参数的估计值。 

因为似然函数中有指数项,故比较容易处理似然函数的 
对数。由于对数函数是一个单调函数.最大化 L(/J， ^130的 
/?值就等同于最大化 log 丄(/»，^卜）的/»值。在 L(/?，o 2 丨 _y) 
的两边取对数，我们得到： 


log e L ( fi , (T I y ) = — ylog e (2^T 2 ) 

If (y !— (恥 + ,j )) 2 


或者，以矩阵形式来 表达： 
log,.L(/J, a 2 I y ) =—~|'loge (2；i7 2 ) 


( y - Xp )'( y - Xp ) 

U 
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这被称为对数似然函数且通常以/表示。因为纟视观察值％ 
为固定的且参数是变化的，因此我们可以写成 /( 译， A , …， 
办， o 2 ), 以表示/是回归参数的一个多变量函数。 

我们要寻找最大似然参数估计值，即最大化 npo , 
街，…， j 3 p ， a 2 ) 的由，私，…，，以 0 • 及1，…，/? />表 
示。我们可以从最小化 I -(/3 b+S ）]2的 

可能性得到最大化 /(/3 b ， 历，… ，你， ff 2 ) 的岛。为了找出最 
大似然估计值3。，$1，…，$ p ， 我们必须对每一个参数的 
对数似 然/取 偏微分，令偏导数为0,且同时解具有 (/»+ 1) 个 
方 程的及 q ， ^^ ，…， $ P 系统 。在正态分布因变量的例子 
里，这些估计方程与那些运用最小二乘法的估计方程相同。 
然而，这一点并不适用于其他广义线性 模型。 

对 (/X) ， /3i ， •• •，办 ） 偏微分 #(/5 b ， 讲 ，…， 办 ， cr 2 ) ， 以 

表示，并令偏导数为0,使得 （ X ' X )/ J — X > = 0。因此， 

,= ( X ' x ) - 1 X ' y 基本上为 y 的线性转换。图 5. 1画出了从 
一简单回归模型）=庳+/?1&+6得出的 / 30和负值的函数 
的对数似然表面。戽和负的最大似然估计值就是使对数似 
然函数达到最大值(两正切线交点）时的译和 A 值。图 5. 2 
通过将/?!固定于其最大似然值 h 亂 、，显示了译的对数似 
然函数单一面向图。注意•对数似然函数达到最大值的正切 
线为一斜率为0的水平线，并且，它所对应的译值即为其最 
大似然估计。图 5. 3通过将译固定于其最大似然值 為0 如， 
显示了/?!的对数似然函数单一面向图。 
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-8 -6 —4 —2 0 2 4 6 8 13 , 

，的最大似然估计值 

图 S .3 固定 ft 为其最大似然值下，单一面向的札对数似然 

通常在任何功值的正切线梯度可通过计算对数似然函数的 
一阶导数来决定。 

图 5.4 显示了邻近^的一阶导数（正切线的斜率）的 
值。注意，在处的导数为0,但在其他闫值时并不 
为0。 






图 S .4 (固定 A )) 邻近 ML £ 的 h 对数似然的一阶导数 
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A 的最大似然估计值 

图 5.5 —个不精确的 ft 估计值的似然方程 



图 5. 6 —个精确的 ft 估计值的似然方程 


■- - - -_ 1 - 

s s¥ 釤匀 £ ~4-«: r. E 
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让我们来检视两个不同的似然函数，并决定关于估计值 
的精确度。图 5. 5显示了一个似然函数(根据由10个 
个案样本的回归模型产生的数据组），在邻近 h ⑷的大部 
分区域，平坦且宽广。换言之，该广大区域中的$1几乎都 
产生相同的似然值，且我们不能精确地决定最好的 A 估计 
值。在此区域中，的正切线的斜率都接近于 0。 相反，在 
图 5. 6中，另一个似然函数(根据由1000个个案样本的同上 
述回归模型产生的数据组)则更为“尖锐”，且 A 的最大似然 
估计值能更精确地被决定。如图5.6所示，在/?1的最大似然 
估计值附近的正切线斜率，在勿值远离值之后 
突然变得陡峭了。 

非正态回归的广义线性模型会产生一个无法用分析方 
法来估计回归参数的方程系统。我们必须求助于通过重复 
循环的计数法来最终逼近最大似然估计值的许多种迭代数 
值运算法。 





离差和拟合优度 
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模型化的目标是要找到一组自变量，以便使模型中的/« 
对于观察值％有较好的拟合。对于正态分布的因变量而言， 

一个拟合优度的准则为 a ) 2 , S - = i ( ^ - 

fi . r 1 越小，模型 =/5 b + 就越拟合数据。这 

就是误差平方和在最小二乘中或最大似然估计的回归参数 
戽中的最小化。当用误差平方和除以总体方差^时，就得 
到了离差，它是一个根据拟合优度的统计准则，解释广义线 
性模型在拟合数据方面的优势的项目。 

其他广义线性模型（如泊松和 logistic 回归模型）的离 
差，都不同于正态的例子，并且彼此之间也各不相同。因为， 
从这些模型中产生的数据具有各自独特的概率函数或似然 
函数。离差也可以被用来比较两个模型的拟合，这是相减 
(两个)离差后实现的。例如，如果一个包含较多回归参数的 
模型的离差与一个包含较少回归参数的模型的离差相比并 
没有小很多，我们就可以选择包含较少回归参数的那个模 
型，因为它更为简洁且更容易解释。 

较复杂模型(以下称完整模型）与丢弃某些参数的较简 
单模型（以下称简化模型)的离差间的差异，也可被用来检验 
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虚无假设，即完整模型中的额外参数都等于零。该差值为卡 
方分布统计量(在虚无假设下，额外的参数都等于零），其自 
由度等于完整和简化模型两者间参数数目的差异。也就是 
说，对于这些广义线性模型，完整和简化模型的拟合差异可 
以被直接用于统计检验中，因为其值在虚无假设下，即额外 
的参数都等于零，为卡方分布。自由度等于参数数目间差 
值。然而，常态模型在其离差中有一个多余参数 （nuisance 
parameter )， 即未知的总体方差 cr 2 。 如果 o 2 是未知的且需经 
由样本估计，我们就无法使用卡方分布而必须使用 F 分布。 

现在我们来正式定义离差。离差 （ D ) 的定义为 
2[/(6 max I 一汽6 | 30 ]，其中 /( 6max I W 是对数似然，当对于 
每一个观察值的估计的条件平均数;2 ,+都被设为其被观察到 
的值这个模型会产生最大的对数似然，因为对于每一个 
样本成员都有一个个别的参数 I = ： y ;。 参数同样本成员一 
样多； 因此，模型会完全地拟合数据。我们使用类似这样的 
一个模型并没有简化任何事情。然而，它的确显示出被观察 
到的样本^的最大似然。它为我们评价其他不太复杂的模 
型提供了一个基准。方括号中的第二项八 Mj ) 是简化模型 
的对数似然，其参数为/?= (决，历， …，戽/，通过最大化似 
然估计并且用来产生对数似然差值的两倍，给了我们 
关于此模型与数据拟合程度的一个提示。 

例如，如果我们有10个力的观察值， M 为一特别的正 
态分布因变量，且有三个自变量兄1， X ,2 和兄3，通过替代 M 
于对数似然的 P ,，则 /(6 ma X b ) 可以被计算出来，而汽6 1 W 可 
以通过估计哀0，及1，卢2和 及 3及以 /?;= J §0 + 彦 lX ; l 十 
及2足 2 +| 3 兄 3 替代在对数似然方程中100个估计的•中 
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的任何一个计算出来。最大的模型包含 loo 个参数，而（目 
前)考虑的模型仅包含四个参数。离差 D 表示简化模型相对 
于完全拟合数据的最大模型的优势。 

为了比较这两个模型，我们计算它们各自的离差，并用 
简化模型的离差 （ d k ) 减去完整模型的离差 （ D F )， B 卩，计算 
他 一 D F 。 如果差值很大，则证据显示完整模型对数据的拟 
合更好。简化模型的离差永远会比完整模型的离差大。关 
键是它能否足够大，以确保在模型中增加额外的回归参数。 
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第1节 I 使用离差进行假设检验 


我们可以通过在一正式统计检验中的离差间的差额，假 
设检验在完整模型中额外的参数都等于 0。 在虚无假设中， 
额外的参数都等于0, ( D R — D F ) 指自由度等于两模型中参 
数数目差额，即完整模型中额外参数数目的卡方分布。对于 
广义线性模型，如泊松和 logistic 模型,我们可以计算 ( D K — 
Df ) 的数值，且在一个相应的自由度(也就是参数数目的差 
值)下查询卡方表，以决定该卡方是否显著。 
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第2节 | 拟合优度 


我们可以通过比较相关的离差来比较各种其他备选模 
型的拟合。我们也可以比较各种连结函数的拟合。此外，我 
们应该检验模型的残差以确定是否有些观察值有大的残差， 
如果有，则表示就这些观察值而言，模型对自变量的拟合 
不好。 

如果最终选择模型的离差很大且查询相应自由度(样本 
数目减去参数数目）的卡方分布时为统计显著，则可能表示 
过度离散 ( overdispersion ) 。过度离散意味着因变量对于其 
条件平均数估计的方差较用于模型中的概率分布所期望的 
大。例如，泊松分布假设分布的方差等于其平均数。如果数 
据显示它较大，则回归参数的标准误可能需要向上调整，即 
使是无偏参数估计值。 
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第3节 | 通过残差分析衡量拟合优度 


同基于正态分布的回归模型一样,适合广义线性模型的 
各种残差分析可以被用来指明没有被模型解释清楚的拟合 
不足的观察值，可以用残差图来检验因变量的值对模型的预 
测值发生系统性偏移的情况。残差分析可以帮助再次指明 
一个能显示更拟合数据的模型。例如，它可以提供需要二次 
项的证据，如一个或多个自变量的平方项，或者，它也可以提 
供证据显示因变量的观察值是相关的，并因此违反了似然函 
数的独立假设。有些广义线性模型可以适用于观察值之间 
具有相关性的情况，该相关性源于对相同个体的重复测量结 
果或同构型群体内的个体聚集效应，如学校中的班级。但此 
处我们不讨论这些较为复杂的模型。 

对广义线性模型衡量拟合优度的最简单的残差为 Pear ¬ 
son 残差 ，即： 


y var ( /?； ) 

帽子数值表示一个观察值的平均数和方差都是从模型估计 
而来的预测值。例如•在 logistic 回归模型的例子里 ， y = 1 
或0， 
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八一广一 e^,-o Hi 

" ; 一 n i— v f ~ $ v 

1 + e^i-o ^i X 'i 

且 vaK/?,) =1(1— I)。注意，与正态模型将各观察值之 
间的方差 o 2 假设为固定有所不同，在 logistic 回归中，每一个 
观察值3>,都有根据回归参数的一个独特方差以及相对应的 
自变量的值。 logistic 回归模型的 Pearson 残 差为： 


r; = 


yi~ k i 
>r ； ( 1 — 7ri) 


大的 n 值表示对于该观察值失拟。 

在泊松回归模型的例子中， 

r . = yi ~ u a = yi — (i i 
y var( fi i ) 


其中， 


(1, = ki = e^i-o ’i x v 

对于泊松分布，方差等于其平均数，因此在前述方程中， 
fi , = var( 众,）。对于泊松模型 ，一 个计数的结果变量％的 
方差会随着该观察值的期望平均数而变化。 

另一个常被使用的残差是离差残差。离差由个别观察 
值的离差组成。每个单一观 察值％ 对于离差的贡献，为该模 
型对于个别观察值 M 拟合度的一个测量。如 Pearson 残差， 
它的定义是根据关于某一特定广义线性模型的离差的形式 
而定的。 

离差残 差为： 


r, = signiyi — fi i)^J 2(^(y,) — i,( /?；)) 
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n = signiyi — ft i ) 项表示残差(: y ,+ _ ;) 是否为正或负。当 

第 i 个人的条件式分布平均数为该个人实际的因变量得分 
时 ，£( y , ) 项为对数似然 的值; /( /?, ) 为对数似然。当由该模 
型产生的条件平均数替代到对数似然中时，根号下的项为第 
^个观察值对于整体离差的贡献，如前文所示，它等于 
[八 M ) — /( A )]。 例如，泊松分布的离差残 差为： 

n = signiyi — ft d 」 2 [ylog (yi/fi i) — (yi — fi ,)] 




logistic 回归 
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第1节 I logistic 回归概述 


我们在第4章中简单介绍过 logistic 回归。运用前面讨 
论过的一些模型化的概念，我们现在要显示如何将 logistic 
回归整合到拟合广义线性模型的架构中。一个在真实数据 
中运用 logistic 回归的例子也会被呈现。贝努利分布 （ Ber ¬ 
noulli distribution ) 为二项式分布的特例，用来模型化0—1二 
元结果或因变量，如治疗成功 (1) 和治疗失败(0)，或烟瘾复 
发 (1) 和没有复发 (0) 。事件的哪一个方面被编码为1或0完 
全是随意的。一般而言,关注的事件被编码为1。其他二元 
结果变量的例子有死亡 vs . 生存和犯罪 vs . 没犯罪。社会科 
学中其他学科的许多结果也是二元的。它们都是 logistic 回 
归模型的因变量。 

贝努利分布或二元分布为 /(J I tt ) = V (1 — Tr ) 1 ^, 其 
中为^ = 1时成功的结果的概率。的值)有两个 结果： 
如果结果是成功的，则1;如果结果是失败的，则 3-= 0„ 
注意，如果我们将7= 1替代至概率分布中，就会得到 
/(I \tz)=k. 如果我们替代0,则得到/(0 | ; r ) = l~n, 
如果只有两个结果，且其中一个(结果)的发生概率为 ; r ，则另 
一个结果的发生概率必然为 l _; r ， 因为(两)概率的总和必 
然等于1。 
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这是一个来自于指数家族的相当简单的概率分布，可以 
很容易地以指数形式 表示： 

f(y I K ) = (A) 十 = e yO-log € a+e") 

其中，标准参数为 0 = log , 且 = log e (1 + 〆 ） 。在这 
个例子中，离散参数0 = 1且0 = 0。标准连结函数为 
d = log , +，且0是我们以协变量的一个线性函数所模型 

化的参数——即 d = ^ o + 方差函数为 b 〃(& ) = 

7 T (1 —7 T ) 。 它是一个单一参数分布，且方差 7 T (1—7 T ) 与其平均 
数; r 有关。贝努利分布的对数似然为 /(tt I W = ^ log ^ + 
(1 一: y ) log f (l — 7 T )。 全样本的对数似然为 /(? n ， …， TTn I 

yi * …， yn) = + (1 — >) log e (l — 7ri)]„ 

与前文相同，我们假设每个观察值或样本成员来自一个 
有其独特参数的贝努利分布。我们想把对数似然 t ( j ：\ y ) 
写成 一个回 归参数(即 /( 川 30 ) 的函数，因为它们而不是; n ， 
才是我们想要从数据中估计的。代数运算可以显 示为： 

二 。 " 入 . 

m = - =r: - 

1 + ehh X i! 

而这便是我们替代至对数似然的部分。 

为了找到参数的最大似然估计值，我们以回归参数的一 
个函数的形式替代; n ( P ) 至对数似然方程，并对于每一个参 
数偏微分令偏导数为0,并求取回归参数向量的解扒因为这 
些方程的参数为非线性的且不能以分析方法解出，因此必须 
用迭代运算，例如运用反复重加权 (iterative re weight ed ) 最小 
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二乘法来求解 P 。 

logistic 模型的离差为 D =2[/(： y | 30 — /(及 | J )]， 其中 
少为 二元结果变量(: yi ， w ， …，： y n )' 的向量，且#为最大似 
然回归参数估计值的向量。似然饱和（ saturated ) 模型为 
/(釗30,其中参数; n 的最大似然估计值为％;即对于每一个 
观察值都有一个独特的参数估计值。对于贝努利分布， 
Ky I y) = X ^ =1 Ly;logw + (l —： yi ) log e ( l —： y ;)]» 注意，当 
: y , 是 0 或 1 时,方括号中的项目等于0,所以 /(_y I 30 = 0。因 
此，离差可简 化为： 


n 

D = - m $ I j ) =-22 b . log ,^ ； ( / 8) 

i= 1 

+ ( l -^) l 0 g f ( l - 7? ； (|))] 


其中 K #) 表示最大似然估计值， A 为最大似然回归参数 
估计值爹=(身0, ^1,身 〆 的一个函数。同 前述： 


因此，对于一个特殊的 logistic 回归模型， D =—2/( 在 | 30 
测量了设想中的模型的拟合数据程度。如前述.两个不同回 
归模型(其中一个是简化模型，包含的参数是完整模型中参 
数的一个子集）离差间的差异，就是具有自由度等于完整和 
简化模型两者参数数目差值的卡方分布，可以用来比较一个 
特定的模型与一个参数较少的简化模型的相对拟合。如果 
服从卡方分布的 ( Dr — D F ) 在适当的自由度下不显著，则证 
据显示完整模型中的多余变量是不必要的，一个有较少回归 
参数的较简单模型就已足够。 
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如果我们想要检验特定的单个回归参数是否在统计上 


显著，则可咖 * 


这一 r 比率，并将该 r 比率与一个自由 


度为 （72 — f 一 1) 的？分布相比较，以确定它是否统计显著。 
(该比率式中的）分母为回归参数估计值的标准误。我们也 
可以通过取在模型中有该参数的离差差额和无该参数的离 
差差额来检验回归参数的显著与否，并且查自由度为1的卡 


方表。 

如同所有的回归模型一样， logistic 回归的主要兴趣是在 
参数估计值、估计标准误、 f 比率以及统计显著程度。这些信 
息构成了所有估计广义线性模型的统计软件的核心产物。 
对于每种广义线性模型，有关其对于因变量的效应的回归参 


数都有不同的解释。 

对于 logistic 回归，连结函数为其平均值的非线性函数， 


也就是说，为回归参数的一个线性函数。因 

\ 丄 — 7Ti ' 


此， ft 表示因增加一个单位时在中的改变， 

而并不是指^(贝努利分布的平均数)的变化。 

解释典是非常困难的，因为它反映了 的变 

化。如果我们指数化/?；(即 #), 则4测量了 X ,每增加一个 
单位时发生比率的变化。让我们以一个简单的、只有单一自 

变量的 logistic 回归的例子来说明。令 lo &( I ^ r )=/5> + 

。图 7. 1显示了此函数。 
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图 7.1 logistic 回归函数 


如果我们将此 logistic 回归方程的两边指数化 ，则: 


K = 

1 — 7T 

如果我们将 X : 增加一个单位 ，则： 


---= A + A (x i +n = eft eA X 1 e P\ 

1 —7T* 

我们可以通过将第二个方程除以第一个方程得到 ^, gp ： 

7T* 

1 — 7 r * _ eft e 氏 _ o 

丌 gft e A x i e 

1 一 JT 

因此， A 代表因 1 增加一个单位而导致的发生比的增加或 
减少。如果/?!为正，则4大于1,表示因&增加一个单位 
而导致的发生比的增加。例如，如果 A 等于0.1， 则， 1 等于 
1.11， X !增加一个单位导致了发生比增加11%。一个大的 
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A 正值会导致大的 A 值，也因此代表因 Xi 增加一个单位而 
导致的发生比的大幅增加。然而，如果戽为负，则 M 小于 
1，代表因 X !增加一个单位而导致的发生比的减少。例如， 
如果 A 等于一 0.1, 则厂 al 等于0.90,幻增加一个单位导 
致了发生比减少10%。一个大的戽负值会导致小的4值 
及发生比的大幅减少。 

除了 logistic 连结外，还有其他可以用来模型化二元变 
量的连结函数(如 probit ) ，但它们基本上都会给出与 logistic 
回归相同的结果。因为 logistic 的参数较其他模型的参数更 
易于解释，对二元因变量而言，它是最被广泛使用的模型。 
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第 2 节 | logistic 回归实例 


本书第一作者参与了以州级社会指标来估计药物使用 
流行性及治疗需求的研究。采用州级社会指标方法的基本 
假设为:一州内的各县社会、人口及经济特性或其他在当地 
的计划实体 (planning entities ) ，都与药物使用流行性及治疗 
需求有关。县级层次的社会指标实例可从各县、州及联邦机 
构获得，如家庭收人的中 位数; 依年龄、性别及种族划分的人 
口分布;与酒精或药物相关的意外事件率;暴力犯罪率。 

虽然直接在州的全部人口中调查药物与酒精的使用可 
能是获取信息的最佳方法，但此方法有一些致命的缺点。衡 
量药物使用问题的逐年调查费用 很高。 即使在州层级也有 
4000或5000名受访者这样相对较大的样本数，对估计县级 
的药物使用来说它仍然太小。一个州通常不会有超过50甚 
或100个县，因此，平均的县级样本数会在50至100的范围 
内。这些样本数对于推论任何县级层次上关于药物使用及 
治疗的需求来讲实在是太小了。 

如果我们孤立那些根据州级电话访问数据得来的、有助 
于预测县级药物使用和治疗测量的县级社会指标变量，就可 
以达成两个重要的目标。第一，可以用 logistic 回归模型对 
县级层次产生以模型为基础的估计值，这会比仅仅根据每一 
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个县级小样本得到的调查估计值更为精确。也就是说，对于 
县级层次的药物使用与流行程度的直接调查估计值而言，是 
根据50至100个受访者的信息得到的,而根据 logistic 模型 
得到的间接估计值则是使用一州内所有4000或5000名受 
访者的数据得到的。一旦该模型被估计，一个对某种药物或 
治疗需求的县级的普遍性测量，就可以通过将每个县级社会 
指标值代人 logistic 回归方程来获取关于该县的药物使用情 
况或治疗需求概率。在这种情况下，我们不是对估计药物使 
用的发生比感兴趣，而是对药物使用的概率感兴趣。 因为： 

= Oa 

1 一 TT 

稍做代数转换就 会有： 

八 eh x , 1 

1 + eS — 。朽 Xj 1 + g - 2 尸 。"入 

因此，只要被估计出来，我们就可以将某个县的相关社会 
指标值 X ,代人前述方程，以获得该县的药物使用期望值。 

第二，当昂贵的药物使用调查数据无法获取时，我们还 
可以用这个模型来预测未来的药物使用情况。许多县级的 
社会指标是动态变量，其值会随时间改变（如各种犯罪率）。 
因此，社会指标数据可在未来数年被收集，并被代人前述方 
程，以预测未来几年的药物使用情况。在大多数例子中，仅 
.有少量的社会指标变量对于药物使用流行性来说是重要的 
预测因素，因此只需要收集少量的信息代人前述方程中。 
logistic 回归方程，也就是前述方程，捕捉了县级社会指标与 
县级药物使用概率之间的关系。当社会指标随时间改变时， 
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对药物使用及流行程度的预测也会有相应的改变。 

这里呈现的 logistic 回归模型是依据一个在南达科他州 
(South Dakota ) 进行的调查研究。用来校准 logistic 回归的社 
会指标模型(也就是因变量为受访者的药物使用二元变量)的 
药物使用和治疔需求的电话调查，是一个总数为4205名受访 
者的样本。南达科他州有66个县，且各县级的样本数为4到 
896。正如所预期的那样,县级样本数与县的人口规模大约是 
成比例的。县级样本数大多为50或更小。若干对药物使用 
流行性的测量被模型化，包括去年饮酒过度、去年违法药物使 
用、酒精治疗需求及药物治疗需求。41个县级层次的社会指 
标变量数据通过各种渠道搜集而来。它们包括酒精和药物使 
用指标(如因使用或持有药物的成人逮捕率)、社区解组 ( disor ¬ 
ganization ) (如离婚率） 、小 区犯罪 和暴力 (如因暴力犯罪的成 
人逮捕率)、人口特性(如该县的白人人口比例）、社会经济剥 
夺(如失业率)、酒精及药物的可获得性(如到达最近州际高速 
公路的距离)、学业失败或缺乏承担义务(如高中辍学率)，以 
及与物质滥用间接相关的社会问题(如青少年生育率)。 

由于指标很多且彼此高度相关，故需要使用因子分析来 
将变量分组，并选一些样本代表每一群变量，或者说来测量 
每一个因素，这会减少最初的那组社会指标数目。如果减少 
的社会指标组(数目 ） 同时作为自变量在 logistic 模型中预测 
各种药物使用测量仍太多，就需逐步用 logistic 回归模型来 
建立更加简约的模型。 

我们对该例子使用这些模型中的其中一种，因变量是二 
元的，指酒精使用或药物使用的某种干预或治疗需求。如果 
该受访者有干预需求则被编码为1，否则为0。四个县级的 
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社会指标或自变量为青少年违法饮酒 GLLV) ，以每1000个 
青少年违法饮酒数目 测量; 青少年犯罪被捕率 (JVC)， 以每 
1000 个青少年被捕率 测量; 年轻男子比例 (YM ) ，测量单位为 
占该县人口的 比例; 该县收人中位数 (M0, 测量单位为元。 
logistic 回归分析结果于表 7. 1中呈现。 


表 7.1 药物使用干预之 logistic 回归模型 


变量 

参数估计值 

标准误 

t 比率 

显著水平 

发生比率 

截距 

3. 7757 

0. 4202 

8. 985 

<0. 0001 

— 

JLLV 

一 0. 00707 

0. 00317 

— 2. 230 

0. 0321 

0. 993 

JVC 

YM 

0. 1964 

0. 0586 

3. 352 

0. 0019 

1, 217 

-0. 0471 

0.0153 

— 3.078 

0. 0040 

0. 954 

MI 

-0. 00007 

0. 000016 

— 4. 375 

0. 0001 

0. 9999 


表 7. 1中的 logistic 回归分析结果为 SAS 输出结果的修 
正。注意 JLLV*A« 的估计回归参数相当小。它们各自有 
0.993 和 0.999 的发生比。部分原因与自变量的测量尺度有 
关。青少年违法饮酒的发生比率意味着在1000名青少年中 
每增加一起违法饮酒，就会使药物治疗千预需求的发生比降 
低 0. 7% [= 100(1 — 0. 993)%],而中位数收人每增加1元， 
就会使干预需求的发生比降低 0. 1%[= 100(1-0.999)%]. 

青少年违法饮酒的标准差为每1000个青少年中有 14. 1 
起违法，因此，每1000个青少年中增加一起违法是相对较小 
的改变。如果我们改变 JLLV 的测量尺度为标准差单位，则 
JLLV 增加一个标准差所导致的发生比率的变化为 
(0.993) 14 ， 1 或0.906。因此， JIXV 的标准差每增加一个单 
位，会使干预需求的发生比降低 9. 4%。即使就标准差单位 
而言，这对于 JLLV 也只是一个中等程度的效应。 

对于中位数收人来说，更加有意义的变化可以用$1000 
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单位而非$1单位来测量。南达科他州66个县的中位数收 
人位于$11502到$34286之间。如果我们将中位数收人尺 
度改为以$1000为单位，则相关的发生比率变成了 0. 368。这 
是一个大的效应，因为中位数收人每增加一个$1000,就会 
使干预需求的发生比降低 63. 2%。 

每1000名青少年的暴力犯罪被捕率为0至 3. 73,其中许 
多县显示没有逮捕，因此原本的每1000人中有1人被捕的度 
量标准设定似乎是合理的。关于 JVC 的发生比率为1.217, 
代表每1000人中一次单一逮捕会使干预需求的发生比增加 
21. 7%，为中度效应。年轻男子 (15 —34岁）于各县中所占的 
比例为9%到23%之间，且标准差为 2. 7%。年轻男子的比例 
每增加一个标准差，对干预需求的发生比的影响效应为 
(0. 954) 2 - 7 = 0.881, 即年轻男子的比例每增加一个标准差会 
使干预需求的发生比降低 11. 9%,这是一个中等程度的效应。 

青少年犯罪对干预需求发生比的正效应和中位数收入的 
负效应合乎预期。年轻男子比例的负效应和青少年违法饮酒 
率的负效应则有些违反我们的直觉经验。或许高违法饮酒率 
代表相关法律执行单位在检查低龄饮酒时的高度谨慎，因此 
减少了干预需求。然而，必须谨记，这四个社会指标的效应都 
是在调整了其余三个变量的影响效应之后的结果。在模型中 
各变量间的相互关系的形态可能会造成调整过的效应(如男性 
百分数)与基于二元模型的未调整过的效应的方向相反的情形。 

为了获取某县的干预需求预测值，我们只需简单地将它 
所对应的四个社会指标的值代人下述 方程： 

- = _ 1 _ 

P g -(3. 775 7-0. 007 (i7JLLV-<j 19tj4/Vr-0. ul7 -o. u()U 07M) 
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第1节 I 泊松回归概述 


泊松回归模型假设回归模型的随机成分有一个特殊的 
概率分布，即泊松分布。泊松分布适用于计数数据。所谓计 
数数据，指在给定的一段时间内，一个特定事件发生的次数。 
下面的计数数据实例适用于泊松 分布: 在给定的一段时间内 
(如一年），某个繁忙的交叉路口所发生的交通意外事 件数; 
接线总机在一小时内所接到的电话来电 数目； 一年内一个罪 
犯的犯案 次数; 五年内一个药物成瘾者的治疗 次数； 以及在 
给定的一段时间内，某一特定医院因药剂过量者的急诊室进 
人许可数目。 

泊松概率密度函数的表达较正态概率密度函数简单 
得多。 

其中 e = 2. 7183 (自然对数的底），且 W =3^_1 )(J — 
2) …1。例如， 6!=6 X 5 X 4 X 3 X 2 X 1。 由此可见，泊松分 
布中仅有一个参数 A ， 它是在一给定时间内的事件平均数。 
图 8. 1表示在不同 A 值下的泊松分布。 

泊松分布为指数家族的成员，因 为： 


f(y I = ^(>-logA—A-log3<!) — e iyd-e Hog y\) 
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图 8.1 在不同； I 值 (0.5, 2和 7) 下的泊松分布 


因此，标准参数0等于 bgj ， 它同样也是标准连结。 6(0) 的 
方差函数为 〆 ，其二次导数为 b \ d ) = 〆 。因为 〆 = A ， 泊松 
分布的方差等于其平均数。当泊松分布的平均数增加，其方 
差也会增加。随机变量 Y 只能为非负数的整数值一也就 
是0, 1，2, …。 泊松分布是左偏的。 

对于假设有一个标准连结的泊松回归模型而言，我们假 
设 lo & A 为线性模型的一个函数，即 log e A = 。我 

们将代人样本的对数似然中以求取最大化似然 
函数的爲。 

因为我们关注回归模型，我们可以检验有/>个参数的回 
归模型，是否比仅有一个总体平均数的简单模型(可想象成是 
在模型中仅有一个截距项的回归模型)更好地拟合数据。我 
们之前就做过对于仅有总体平均或截距参数的简化模型和有 
着条件期望值为 A , (即回归参数的一个函数)的完整模型，比 
较两者离差的差异。我们也可以比较完整的和简化的这两个 
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模型，由此再比较这两个模型间离差的差额。该差异服从自 
由度为回归参数数目差值的卡方分布。如果卡方量为统计显 
著，我们就接受完整模型。如果不显著，则接受简化模型。 

如前所述，离差的定义为 2 [/(：y | I j )], 其中 

iiy I 30 为拟合值等于数据达到的最大似然。亦即，有如同 
观察值一样多的参数。第二个似然 /d I j ) 为基于预测值 A „ 
A , 由一个 L 为歹的函数，也就是 h (冷）的回归模型产生。 
对于泊松分布，离 差为： 

0 = 2(^] ^'log — A;) J 

模型化的目标是要找到一个 D 值小的模型，因为它表示 
条件化平均数或期望值 h 与观 察值％ 相近。如果模型完全 
拟合数据(如同一个饱和模型），则 D 等于0,因为％ • = A ,。 
我们可以从公式中看到，当 M 和 h 间的差异增加时， D 会变 
大。因此，它可以用来衡量设想模型的拟合优度。因为 D 为 
个别离差项目的总和——即 D = y : =1 d , ——我们可以检 
验个别 A 并确定是否有特别大的 A 值。离差残差的定义为 
(yi — A / ) Jdl , 其中如果 : yz > sign(y — A ,) 为正;如果 
% < h ，为负；如果 y L ，等于0。大的离差残差可能代 
表失拟。 

对于泊松模型，因为 10& A , = jy 尸# 这意 味着： 

又 ,.== pft e&X;2 ... e ?p^, p 

因此，在假设其他自变量不变的条件下 . X y 每增加一个单 
位.就会通过一个 A 改变平均数 L 的值。 
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这里叙述的泊松回归模型是一个对应于一项重要社会 
政策议题的实际生活实例。本书第一作者为此项目的共同 
研究者。该项研究涉及北卡罗来纳州囚犯的纪律违反率。 
监狱官及其他监狱系统的工作者观察到，囚犯的纪律违反率 
在近期内有较大幅度的增加。有人认为，这种增加是由于判 
决法的改变。在1994年10月1日以前，有罪的重罪犯依公 
平判决法 (Fair Sentencing Act , FSA ) 判决。根据 FSA , 囚犯 
有相对长的刑期，但可能使其减半并且有资格假释。从1994 
年10月1日起，有罪的重罪犯依结构判决法 (Structured 
Sentencing Act , SSA ) 判决。此法提供相对短的刑期且没有 
假释资格，即使行为良好也不能提前释放。囚犯可以通过参 
与某些工作或计划赚取一些时间以提早释放。然而，赚取的 
时间不能使一名囚犯的服刑时间少于他或她最长刑期 
的83%。 

因此， SSA 囚犯较之于 FSA 囚犯有更少的动机去服从 
监狱的纪律规范，也因此被预期有较高的纪律违反率。对职 
工和囚犯安全而言，这可能会导致许多具有危害性的结果。 

此研究设计旨在测定，根据 SSA 判刑的囚犯与根据 FSA 
判刑的囚犯相比，是否具有显著较高的纪律违反率。此研究 
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涉及从1995年6月1日起被送至北卡罗来纳州监狱服刑的 
所有年龄层的男女囚犯。有些囚犯(从研究中）被排除，例如 
那些同时根据 FSA 和 SSA 服刑的，以及因为违反假释而回 
到监狱的。其他的一些排除原因在此不需要讨论。在研究 
期间有大量的 FSA 和 SSA 囚犯，用于回归分析的数据来自 
北卡罗来纳州矫正部的计算机化罪犯记录。 

此研究涉及分别对男性和女性模型化不同类型的纪律 
违反率。男性和女性之所以被分开模型化，是因为男性有较 
高的违反率，且预期 FSA / SSA 及其他协变量对于纪律违反 
率的效用在男女间有所不同，即，假设 FSA / SSA 及大多数其 
他协变量与性别有交互作用。我们着重用泊松回归来模型 
化男性囚犯的总的或整体的纪律违反率。这在此研究计划 
的所有泊松回归模型估计中可能是最重要的,因为监狱中的 
囚犯大多是男性，且他们的纪律违反率比女性囚犯高。 

泊松回归模型的样本数为11738。这些囚犯的记录没有 
缺失值。另外1026名囚犯因为有缺失数据被排除在分析之 
外。因为依据 FSA 和 SSA 判刑的囚犯可能在重要的背景特 
征上有所差异，也因此被预期会与纪律违反率有关，故需要 
将它们作为协变量，与 FSA / SSA 这一“翻别” （ treatment ) 或 
政策变量一同放人模型，以调整 FSA / SSA 政策变量对协变 
量的影响效应。在囚犯记录数据中有许多可能的协变量，但 
根据逻辑上的考虑和过去的研究，我们只选择了由某些协变 
量所构成的一个次集合。 

主要感兴趣的变量为结构判决相对于公平判决这一政 
策变量，以 0-1 指标置人模型中，0表示公平判决，1表示结 
构判决。因此,公平判决代表参照组，用来和结构判决比较。 
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此 0-1 变量的回归参数代表了结构判决相对于公平判决的 
影响效应。在此模型中，该参数已经调整了其他协变量的影 
响效应。 

用一个三级的类别变量反映囚犯被判的犯罪类型。第 
一级是暴力 犯罪; 第二级是财产 犯罪; 第三级是公共秩序犯 
罪。我们假定因暴力犯罪而被判刑的囚犯会较其他两种非 
暴力犯罪类型的囚犯有更高的纪律违反率。因为有三种犯 
罪类别，需要两个 0-1 指标变量来代表这个三级的犯罪变 
量。注意，第三个指标是多余的，因为只要知道任何两个指 
标变量的值，剩余的一个指标变量值就可以被确定了。因为 
三个指标变量之间具有完全的多重共线性，所以其中一个必 
须从模型中去除。我们采用舍弃代表公共秩序犯罪类别的 
0-1 指标变量。两个剩余的指标变量被编码如 下:暴 力犯罪 
编码为1，如果该囚犯为暴力犯罪群体中的一员，为0 则否; 
财产犯罪编码为1，如果该囚犯为财产犯罪群体中的一员，为 
0则否。同样的，关于财产犯罪类的回归参数测量的是作为 
财产犯罪群体中的一员相对于作为公共秩序犯罪群体中的 
一员的效应。 

种族有三个 类别: 黑人、白人和其他。白人被选为参照 
组。模型中包含一个0—1的黑人指标变量和一个0—1的 
其他种族的指标变量。因此，黑人的回归参数反映了相对于 
白人而言，黑人的纪律违反率。同样的，其他种族群体指标 
变量反映了相对于白人群体而言，属于其他种族群体的纪律 
违反率。 

有一个三类别变量代表先前的监狱经验与纪律违反的 
组合。这些类别 为:先 前的监禁和至少一次(纪律）违反、先 
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前的监禁和没有（纪律）违反、没有先前的监禁。第三个类 
别，没有先前的监禁为参照组。前两个监狱经验变量都以适 
当的指标变量来定义。 

有一个 0-1 的指标变量代表该囚犯对于目前的监禁是 
否在被逮捕时为缓刑。获缓刑的囚犯被编码为1，而未获缓 
刑者被编码为0。因此，这个变量代表相对于没有缓刑，缓刑 
对违反率的影响效应。一个指标变量被构造来表示酒精依 
赖，1表示对于酒精依赖有高度风险，0代表没有高度风险。 
另有一个相似的变量被用来表示药物依赖。 

有四个连续性自变量:开始服刑时的年龄，以年表示;在 
研究之前就已经在北卡罗来纳州监狱服刑的时间，以年表 
示; 适用目前刑期的 年数; 预期的刑期长度，以年表示。对于 
这些连续性变量，相关的回归参数反映了自变量每增加一个 
单位尺度(如年)所导致的纪律违反率的改变。 

对于该项研究，每一个囚犯被观察的时间不固定。要 
根据囚犯进人研究的时间和因释放而离开研究的时间，或 
者因为研究结束而无法再观察到囚犯。这个纪律犯罪率随 
时间变化的期间需要明确地以泊松回归模型来包含，这可 
以通过包含一抵消于此模型中轻易办到。 一 个特定囚犯的 

违反率可以被模型化为 loge | ^ +/3 lX i +…+ / JpXp ，其 

中 f 为某一特定囚犯的违反率。作为分母项的时间为观察到 

的纪律违反次数的时间长度。因为 lo & + = log f A - log ,?, 

我们可以将前面的回归方程表示为 b&A = log f f 十译+ 
-^^ pXpAoget 为抵消。对于每一个罪犯都会有一 
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个特定值，且没有关于它的参数可以估计。如果我们将这个 
方程的两边指数化，就得到 A = te ㈣ x ' t …十队， 而且，我 
们可以用 r 的特定值、 X ;的特定值和未知的回归参数写出此 
泊松分布的对数似然。对于这个模型回归参数的解释就如 
同那些对每一个体有着相同固定观察时间的传统模型。 

我们用 SAS 软件 （SAS Institute , 2⑻ 2) 来估计此模型。 
如前所述，共有11738个观察值和14个自变量。这个模型的 
对数似然为 一2661. 0231。此值可以用来与其他模型的对数 
似然相比较，在其他模型中一组自变量被舍弃以决定是否较 
简单的模型在预测违反率时可以像复杂模型一样好（即一个 
似然比检验）。此模型的离差为 25659. 87。将此离差除以其 
自由度得到一个关于此模型拟合优度的衡量，称为尺度化 
的 （ scaled ) 离差。因为有11723个自由度（样本数11738 — 
估计回归中的参数数目 15), 拟合优度为 2. 1888。对于泊 
松分布，平均数等于其方差。在这个条件下，我们会预期尺 
度化的离差，即我们的拟合优度测量接近于1。如果它小 
于1，则有一个过低离散 ( underdispersion ) 的情况;如果它大 
于1，则有过度离散的情况。在这两种情况下，泊松分布的 
平均数与方差相同的条件被违反了，且模型的拟合优度也 
被连累 （ compromised ) 。 

违反泊松分布的假设对于回归参数的估计值没有 影响； 
然而，其对于回归系数的标准误的估计值却有影响。像我们 
的例子一样，过度离散通常比过低离散更为常见。过度离散 
指的是，作为结果或因变量的计数数据——在我们的例子中 
为纪律违反次数一较一个泊松分布所期望的更加多变。 
因此，根据最大似然的标准误估计值为实际标准误的低估 
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值，因为在似然估计方程中使用泊松平均数等于方差这一条 
件会低估违反次数的方差。我们可以将它们与尺度化的离 
差的平方根相乘来修正原来的标准误。 

同大多数回归模型一样，最重要的结果是含有估计回归 
参数、标准误、 r 比率及显著性程度等标注的一张表格。除了 
截距参数估计值外，我们的泊松违反率模型包含了 14个估 
计的回归参数。最重要的回归参数与结构判决 （1)/ 公平判 
决 (0) 这一指标变量有关，因为这是研究的重点。其余的13 
个自变量为囚犯背景变量，用来作为控制变量以调整结构判 
决和公平判决这两个群体之间因囚犯背景差异所产生的影 
响效应。囚犯背景变量对于违反率的效应也应受到关注，因 
为它们代表了影响违反率的风险因素。 

我们没有呈现所有14个估计的回归参数，而仅仅呈现 
了结构/公平判决、囚犯年龄、先前人狱及纪律违反历史这几 
个变量的影响效应。结构/公平判决由一个单一的指标变量 
所体现，1代表结构判决，0代表公平判决。囚犯年龄是以年 
数衡量的连续变量。先前人狱及纪律违反历史，如前所述， 
是由两个指标变量所概括的一个包括三个级别的类别变量。 
第一个(指标变量）将先前有服刑且违反纪律的囚犯赋值 
为1，否则为0。第二个将先前有服刑但没有违反纪律的囚 
犯赋值为1，否则为0。因此，第一个指标变量代表了先前有 
服刑且违反纪律的囚犯与先前没有服刑的囚犯之间的对比。 
第二个指标变量代表了先前有服刑但没有违反纪律的囚犯 
与先前没有服刑的囚犯之间的对比。因此，先前没有人狱经 
历的为这两个指标变量的参照组。回归分析结果呈现在 
表 8.1 中。 
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表 8.1 泊松违反 (纪 律)模型之参数估计值 


变 量 

参数估计值 

标准误 

<比率 

显著程度 

组织对公平判决 

0. 2413 

0. 0326 

7. 40 

<0. 0001 

先前有服刑且违反纪律对先前 
无服刑 

0. 5501 

0. 0403 

13. 65 

<0. 0001 

先前有服刑但没有违反纪律对 
先前无服刑 

0. 0413 

0. 0341 

1,21 

<0. 2259 

囚犯年龄 

-0. 0831 

0. 0022 

-37. 77 

<0. 0001 


四个变量中的三个为囚犯违反率的高度显著预测项。 
结构判决囚犯与公平判决囚犯相比有显著较高的 lo & (违反 
率)。同理，结构判决囚犯的违反率比公平判决囚犯高。有 
先前服刑及违规的囚犯，相对于没有先前服刑经验的囚犯， 
也有着较高的违反率。囚犯年龄的估计回归参数_0. 831高 
度显著，表示当囚犯的年龄增大时，其违反率会降低。 

估计的回归参数反映了相关自变量对违反率的自然对 
数的影响效应。虽然这些估计回归参数的符号和相对大小 
给了我们关于参数的影响效应的概念，个别估计回归参数却 
很难解释。因此，通常会指数化估计回归参数（即/)，以使 
它们可以反映在违反率上的倍数效应。计算机程序大多会 
输出指数化的回归参数估计值，并可以指定显著性水平（如 
95 %)的置信区间。 

表 8. 2纪律违反率泊松回归 

变量 95 %置信区间 


组织对公平判决 

1. 27 

[1. 19, 

1. 36] 

先前有眼刑且违反纪律对先前无服刑 

1. 73 

[1. 60. 

1. 88] 

先前有服刑但没有违反纪律对先前无服刑 

1. 04 

[0.97. 

1. 11] 

囚犯年龄 

0. 92 

[0. 916, 

0. 924] 
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使用表 8. 1中估计的回归参数和标准误，我们在表 8. 2 
中呈现了指数化回归参数及其95%的置信区间。原本的 
95%的置信区间为彦 ±1.96 倍$的标准误。因此，的置 
信区 间为： 

[e^~ h96se f , e ^ +l - 96se f ] 


其中 《 ^为卢的标准误。 

如果0的累加效应为零，则倍数效应 j = / = 1。因 
此,一个为1的倍数效应代表没有效应。如果倍数效应比1 
小，则相关的自变量对违反率有负的效应。如果倍数效应比 
1大，则相关的自变量对违反率有正的效应。一个负的效应 
是指当自变量的值上升时违反率降低。如果置信区间涵盖 
1，则指数化的回归参数在给定的显著性水平上不具有统计 
显著性，回归参数也是如此。例如，如果一个95%的置信区 
间涵盖1，则回归参数在 0. 05水平上统计不显著。 

结构/公平判决对总违反率的倍数效应为 1. 27。这意味 
着，结构判决囚犯的违反率比公平判决囚犯的违反率高出 
27%。亦即，将公平判决囚犯的违反率乘以 1. 27就可以得 
到结构判决囚犯的违反率。 

先前有人狱及纪律违反史的相对于没有人狱的倍数效 
应为1.73。前一个群体的违反率比后者高出73%。先前有 
人狱但没有违反纪律的群体与没有人狱的群体，在 0. 05的 
水平上，统计上没有显著差异。注意,95%的置信区间包含 
1，故没有倍数效应，或者，在 log e 尺度上没有累加效应。 

年龄的倍数效应为 0. 92,代表年龄每增加一年违反率会 
减少8%。亦即，年龄对于整体违反率的效应是负的。注意， 
累加效应的参数为负 （即一 0.0831)。因为年龄是连续的，我 
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们可以检验年龄的任意增加在减少犯罪率上的效应。例如， 
年龄增加10年会有一个对于违反率的倍数，增加一年 
的效应为。因为等于 ( ) 1() ，我们只要简单地 
提高 eK ， ，因增加一年而对违反率的倍数效果，到10次方即 
可。我们可以使用任何计算器简单地完成这一运算。因为 
为 0. 92,年龄增加10年的倍数效应为 (0. 92 ) w 或 0. 43, 
即违反率降低57%。 
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生存分析，顾名思义，用来预测一个个人或物体生存多 
久，直到一个事件的发生，如在个人例子中为死亡，在物体 
(如一个机器的零件)例子中为失效。生存分析在所有科学 
研究中都有着广泛的运用 （Hosmer & Lemeshow , 1999)。 
例如，在医学研究中，它被用来调查各种药物对癌症患者生 
存时间的影响。在物理科学中，它被用来模型化各种次系统 
(如飞机零件）的失效时间，在社会科学中也有广泛的运用。 
例如，它被用来模型化被解雇后找到一份新工作的时间，一 
个病患在退出药物滥用治疗计划前所花的时间，以及一个犯 
人从被监禁后发生一起监狱违规的时间。 

对于这些问题以及其他类似的问题，我们想对回归模型 
进行改进以预测生存时间或生存时间的某种函数。也就是 
说，我们想要决定一组假设的自变量或协变量是否能解释生 
存时间或一个事件发生所需的时间。例如，知道病患和治疗 
计划特征与病患在自愿退出之前参与该计划的时间长度如 
何相关，是有用的。例如，针对参与美沙酮 ( methadone ) 治疗 
计划的海洛因 ( heroin ) 成瘾者的一些研究发现，接受美沙酮较 
高剂量的患者倾向于在治疗(计划）中持续较长的时间。当 
然，剂量程度以外的变量也被包含在模型中，以调整其他可能 
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会导致治疗持续时间差异的影响，如病患的性别和年龄。 

这是生存分析在前面讨论过的广义线性模型中所没有 
发现的一个方向，这使生存分析在某些条件下更加复杂。这 
个复杂的方向是删截 ( censoring ) 。在许多持续时间有限的 
研究中，不一定对所有的个体都有生存时间数据。在我们的 
美沙酮治疗例子中，可能有相当大比例的患者在研究期间不 
会退出治疗。这样一来，我们就不会有这些患者的生存时 
间，因为他们在研究结束时仍处于治疗状态。另一个例子是 
一个对五年癌症患者的研究，他们到死亡发生时的生存时间 
为结果变量 :有些 患者可能在研究结束时仍然活着。虽然我 
们无法测量这些患者的生存时间，但我们却有这些患者的某 
些信息，可以在模型中用来估计回归参数。我们知道，他们 
存活了某段时间。我们在其后会看到如何将这个信息用于 
生存分析。除了直到研究结束时还存活的人，也可能有其他 
人失访以至于我们不知道他们的生存时间。然而，我们可以 
知道在某一时间点,他们还存活着（图 9. 1)。 


_死亡 


失访 


死亡 


失访 


研究开始 


存活 


研究结束 


时间 


图 9.1 生存分析时间示意图 
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第1节 I 生存时间分布 


在任何研究中的生存时间因个体的不同而会有所变化。 
它是一个连续随机变量，且如同其他任何随机变量一样有一 
个概率函数。许多不同的分布被用来描绘生存时间，包含威 
布尔 ( Weibull ) 、指数、 gamma 以及对数正态。故需根据研究 
本质、理论上的正当理由及所选取的分布与实证研究数据的 
适切性，来选取一个特殊的分布以用于生存模型中。 

许多类型的分布都允许生存时间数据有多种形状和尺 
度(离散）。使用最广泛的分布为威布尔分布，因为它是一个 
包含了两个参数的分布（一个形状参数《和一个尺度参数 
A )， 根据 a 和 A 等参数值允许多样的分布。根据参数，威布尔 
分布可以趋近于指数、 gamma 和对数正态分布的形状。图 
9. 2画出了有着不同 a 值但却有相同 A 值的威布尔分布。 

最简单的生存时间分布为单一参数的指数 分布； 其为 
/(;) 有参数 A 。 因为它十分简单，所以有时会被用 

于生存时间的回归模型中。此回归模型的参数，如我们将见 
到的，易于解释，但也有一些限制，我们将在后面讨论。 

现在让我们来讨论更多的关于生存时间分布的一些概 
念。除了通过其概率函数 /“) 描绘岀生存分布，我们也可以 
其分布函数 FQ ) 来直接描绘它。 FG ) 为随机变量 T (生存时 



第 9 章生存分析 


95 



图 9.2 相同尺度参数 U = 1.2) 但不同形状参数的三种威布尔分布 

间)的概率，等于或小于一个给定的 r 值。对于熟悉微积分的 
读者而言，此为 积分： 

t 

F(t) = I f(t)dt 

o 

F ( r ) 为在密度函数 /(?) 下，由 0 至 r 左边的区域(图 9. 3) 。 



图 9.3 对于一个生存时间随机变量的密度函数(/⑴)和分布函数 ( F ⑴) 
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一个相关的函数 s ( rt ， 被称为生存函数，表示生存时间了 
等于或大于 t 的概率。因为在一个密度函数下方的区域为1， 
且 F ⑴为 : T 小于？的概率, S (0 —定等于 1- FU ) 0 这一点可 
见图9.4 。 B 卩，因为 F ( r ) 为死亡或发生于时间〖前的其他事件 


之概率， S ( i ) —定是发生在 f 和其后的事件之概率(图 9. 5)。 



图 9. 4分布 FU ) 及生存分布 S ( t ) 



图 9. S 生存分布 S ⑴ 
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在生存分析中，有一个很重要的时间函数为风险函数 
hit ), 风险函数 hit ) 被定义为 /( i )/ s ⑴，且可被解释为在给 
定该个体存活到时间 f 的条件下，事件发生在时间 f 的瞬间 
概率。它为一条件式概率且为密度函数 /( f ) 与生存函数 
SG ) 的比。如同密度函数一样，风险函数也可以有各种形 
式，如图 9. 6所示。 



图 9. 6威布尔分布的风险函数 
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第2节 | 指数生存横型 

. 漆. 


最简单的参数化生存分析涉及指数分布。该密度函数， 
同前所述，为/(〖）= AfW ，且涉及一个单一参数 A 。 相对应 
的生存函数为厂所以风险函 数为： 

hit ) = - - = A 

KU Sit ) e - u 

因此，风险为一个常数，而不像在更加复杂的二参数分布(如 
威布尔分布）中那样（风险）是时间的函数。因为风险 A 恒 
正，我们将自变量的一个线性函数模型化 log e A 。 即， 
logeh ( t ) = log e A = + /9 lXl + …+ PpX p ， 或 A = 

e & H p x p 。 对于未删截的数据，我们可以将这些代人 
对数似然函数中并求取回归参数的最大似然估计值的解。 
亦即，第 i 个观察值对于对数似然的贡献为 hg , fit ,) = 
logfA ; —Xiti = ji ) + j 3 i Xu + …十 @ pX & — + ^ p x p ， i i a 
如果数据是删截的，则每一个观察值对于似然函数的贡 
献要根据第 i 个观察值所观察到的值~判断是否为删截的。 
对于未删截的生存时间，如前所示，对于对数似然的贡献为 
log / Q ,)。 对于删截的生存时间， /(?,) 用于似然函数中并不 
适当。然而，对于删截的观察值，我们知道生存时间至少是 
?,，即使我们不知道确切的生存时间。这仍是关于回归参数 
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的有用信息，可被用在似然函数里。因此，对于删截的观察 
值，可用 SU ) 作为对似然函数的贡献。我们用一个删截指 
标 <5,,对于每一个观察值，如果衣=1，则^为未删 截的； 
ft = 0,则为删截的，因此似然函数可以被 写成： 

n/(i,)^s u,)h, 

或 

n v ’ 

其中 rr 表示个别似然的乘积。对数似然为 2； =1 ^ iogA ,- 
A 山•。在对数似然中，将 lo & A ; 替换为 /3 o + AX 1; +…+ 
PpXp , ,并将 A , 替换为，一，并对每一个回归参 
数求偏导数，我们可获得一组最大似然估计方程。因为方程 
为非线性的，我们用迭代数值运算法 （iterative numerical al - 
gorithm ) 来估计回归参数及其标准误。 

如同所有的广义线性模型一样，我们可以从离差的差异 
来比较许多模型的拟合，或用似然比检定，即 f = 
-2[/(^ i , 0)-« ^ i ， 身2)]，其中八及 I , 0) 为令啟 等于 
0时的较简单模型的对数似然，此简单模型嵌套 （ nested ) 于 
对数似然为彳 （$1, $2) 的更复杂的模型中。更复杂的模型 
包含额外的一组回归参数译。卡方的自由度等于简单与复 
杂模型中参数数目的差值。如果卡方为统计显著的，则简单 
模型被拒绝，支持更复杂的模型。如果嵌套模型只相差一个 
参数，我们就可以用来自完整模型的估计的回归参数及其相 
关标准误来执行一个 f 检验，以决定这一特定的变量是否应 
该被包含在模型中。 
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因为 A , = e _ x u 十 ，、，每一个自变量的效应为倍 
数的，而不像在经典多元回归中效应是累加的。对于一个正 
的回归参数 ft ，为相关自变量 X , —个单位的增加，所导致风 
险 A 增加一个的因素。如果岛为负 ，则； 0每增加一个单 
位会导致风险降低一个1一 M 的因素。对于一个正岛，在 
X ；增加两个单位时会导致风险增加 e 碑倍。同样地，对于一 
个负 ft ，在 X ；增加两个单位时会导致风险降低1 一 倍。 

请注意，指数分布的平均数为 1/ A ， 即风险的倒数，这一 
点很有趣。因此，当指数分布的风险增加，平均数降低，反之 
亦然。我们可以用估计的回归参数来模型化第〖个观察值的 
风险或指数分布的平均数，此为检验相同过程的两种方法。 
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第 3 节 I 指数生存模型实例 


一个应用指数生存模型的经典例子是，预测一群孩子们 
在白血病减轻过程中 （in remission ) 的发作时间 （ Breslow ， 
1974) 。有三个预测或预兆 变量: 白血球计数的自然对数 (log 
WBC )、 年龄和年龄的平方项 。 log WBC 被用来弥补偏态或 
WBC 的界外值。使用年龄平方项是因为先前的研究显示在 
中间年龄范围内（即年龄与生存时间有一个曲线关系）的孩 
子生存时间是最长的。拟合三个模型一仅有截距(无协变 
量)、仅有单一变量 WBC 以及所有三个预测因素 ( WBC 、 年龄 
和年龄平方项)——的结果呈现在表 9. 1中。 


表 9.1 指数生存模型的回归系数、对数似然值及卡方值 


模型编号 

预测变量 

对数似然值 

回归系数 

z 2 

df 

1 

仅有截距 

-1332.925 




2 

log WBC 

— 1316. 999 

0. 72 

31.85 

1 

3 

log WBC 

-1314. 065 

0. 67 

37.72 

3 


年龄 


-0. 14 




年龄平方项 


0.011 




资料来源: Breslow ( 1974) 。 


模型2的卡方借由 一 2( 模型1的对数似然值一模型2的 
对数似然值)所获得，即一 2[- 1332. 925-( - 1316. 999)] = 
31.85: 此亦等于完整和简化模型的离差的差异。卡方的自 
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由度为1，因为它与仅含截距的模型只差一个回归参数。故 
它在 0.001 水平上高度显著。当观察值数目足够大时，1个 
自由度的卡方趋近于^因此，卡方为 31. 85, z 值为 
731785 = 5. 64, 且我们知道逼近 2 的《在 0. 05 水平上是统 
计显著的。 

模型3增加了年龄和年龄的平方，其卡方也高度显著 
(f = 37.72)。我们有理由期望这个模型显著，因为它包含 
log WBC ， 其本身就是一个高度显著的预测项。问题是，增加 
年龄和年龄平方项是否相较于仅有 log WBC 时显著地增加 
了 FIC 。 我们可以将两模型对数似然的差额乘以两倍，检定 
关于年龄和年龄平方项的回归系数都为零的虚无假设。在 
卡方表中查询两个自由度所对应的卡方值为 5. 87,发现在 
0. 05水平上不显著。因此，我们接受虚无假设，即关于年龄 
和年龄平方项的参数都为零。有两个自由度是因为两个模 
型中参数数目的差额为2。因此，我们接受较简单的 WBC 模 
型。而且， 5. 87也等于两个模型离差间的差异。 

log WBC 的参数高度显著且为正 （0. 72)。这表示当 
WBC 上升时，风险也随之上升，或者，期望生存时间随之减 
少。这个指数生存模型为一个比例风险模型的例子。对于 
指数分布固定的风险函数，会作为自变量的函数而发生变 

化，但会保持相同的形状-条水平线。对于任何比例风 

险模型，个别协变量的重要性为 M ，而 ft 为关于第 J 个协变 
量的回归参数。 A 值代表在其他所有协变量固定的条件下， 
相关协变量 X ;增加一个单位所导致的风险的倍数改变。在 
我们的例子中 ， log WBC 增加一个单位所导致的改变为， 72 
或 2. 05, 代表一个约两倍的风险。 
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广义线性模型提供弹性以使用因变量的不同概率分布 
来处理各种数据。它们是因变量假设为正态分布且条件平 
均数为自变量的线性函数的经典回归模型的普遍化。广义 
线性模型假设平均数的函数，而非平均数，是自变量的 
一个线性函数。因变量可以具有指数家族中的各种分布。 
连结平均数函数与线性预测变量的连结函数，通常由该因变 
量的特殊误差分布形态决定。此被称为标准连结。对于正 
态分布，它是同一性连结以^) = IM -, 对于二项分布，它是 

logit 连结 g(/ui) = log c ( 工 f ) ; 对于泊松分布，它是对数连 

结 g ( p ) = log〆 /^)。 对于比例风险模型，风险的对数为自变 
量的线性函数。离差不能用来衡量一个特定模型的拟合优 
度。但离差间的差异可以用来比较两个备选嵌套模型的 
拟合。 

在本书中所讨论的 GLM 假设观察值之间彼此独立。模 
型可以被扩展至因为观察值聚集在一个较高的分析层次内 
(如学校、诊所和班级)因而彼此相关的例子。这些模型被称 
为混合效应(或随机效应模型），因为它们包含了牵涉回归参 
数的一个固定成分，再加上一个代表聚集效应的随机成分， 
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正如我们讨论过的模型一样。该随机成分说明了聚集在同 
一 个单位内的观察值之间的相关性。 

虽然还有许多其他我们所没有讨论的广义线性模型，但 
与已经讨论过的模型相比，它们较少被使用。 





本书所涉及的分析都是通过操作 SASCSAS Institute , 
2002) 得出的。在 SAS 中有许多程序可以用来执行广泛的统计 
分析。在此，我们总结一些建立广义线性模型的重要 SAS 程序。 

一个在 SAS 中非常富有弹性的程序为 PROC GEN - 
MOD , 它可以估计本书中讨论的所有广义线性模型。有几个 
内建的连结函数，包括同一性、对数、 logit 及 probit ， 它也允许 
使用者结合七个内建的分布，即二项式、 gamma 、倒数、高斯、 
多项、负二项、正态和泊松，设定它们自己的连结函数。下 
面，我们提供一些如何使用此程序的例子。在这些例子中， 
使用者自己的说明以斜体表示， DV 表示因变量，而 IV 表示 
模型中的自变量。对指令句的评论以 /*〜*/ 表示。注意， 
每一个 SAS 指令句都需要以分号 （ ； ) 作为终结。 

(1) 线性 回归: 连结函数为同一性函数且分布为正态的。 
proc genmod data =数据名称； 
class 如果定类自变量存在的话，其之名称； 
model DV 的名称 =IV 的名称 /dist = normal 

link = identity ； 



表 3.1 报告的回归分析可以通过使用下列指令 得出: 


/ * 以下指令是为了将数据读人 SAS * / 

data table31 ； 

input y xl x2 x3 x4 x5 x6 ； 

datalines^ 

5 2 3 4 5 5 6/* 这为个体 1 的数据，有七个字段，包含 * / 
/ * 七个在 “ input ” 指令句中定义的定序变量* / 


/* 我们在下面不需要 “ class ” 陈述，因为所有 IV 都为连续 * / 

/ * 变量 * / 

prog gennwd data= table 31 ； 

model y = xl x2 x3 x4 x5 x6/dist=normal lmk=identity ： 

run：/* “nm” 用来执行上述 SAS 指令 * / 

(2) logistic 回归 :连结 函数为 logit 且分布为二项的。 

proc genmod data = 数据名称； 

class 如果定类自变量存在的话，其之 名称； 

model DV 的名称 =IV 的名称 /dist = binomial link = logit ； 

run ； 


表 7. 1 报告的 logistic 回归分析可以通过使用下列指令 
得出： 


/ * 以下指令是为了将数据读人 SAS */ 
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data table71 ； 

input interv JLLV JVC YM MI; 
label ⑻ “ 干预 (1 ) 或无 ( 0 )” 

“ 青少年违法饮酒 ” 

/vc= “ 暴力犯罪青少年逮捕率(每 1000 名青少年的被捕数 目 ）” 
= “ 年轻男性占该县人口的百分比 ” 

“ 该县的中位数收人 ( 测量单位为千元 )” 


datalines ; 

1 250 0. 64 0 , 25 1 1.5 


proc genmod data: table 7 I ; 

model interv — JLLV JVC YM MI dist = binominal link = logit； 


(3) 泊松分布 :连结 函数为对数且分布为泊松。 

proc genmod data = 数据名称： 

class 如果定类自变量存在的话，其之 名称； 

model DV 的名称 = IV 的名称 dist = poisson link = log 

offset^ 被用做抵消的变量 名称； 


注意 :抵消 变量不可以是 DV 或 IV 。 

表 8. 1报告的泊松回归分析可以通过使用下列指令 
得岀： 




data table81 ； 

input infract sentence priori prior2 age time 

log_time= logUime) i / * 此指令用来建立抵消变量 * / 

labe Imfract = “ 纪律违反数 ” 

sentence = “组织判决 (1 )/ 公平判决 (0)” 

priori = “先前有服刑且违反纪律 (1)/ 先前无服刑 (0)” 

Pnor2 = “ 先前有服刑但没有违反纪律 (1)/ 先前无服刑 1(0)” 
age= “ 囚犯年龄 ” 

time = “ 观察到纪律违反数的时间长度 ” 


datalines ； 

4 1 1 0 24 5 


proc genmod data = tableEl : 
class sentence prior] prior2 ； 

model infract = sentem'e priori prior2 «ge*/dist = binomial 

link = logit 
offset— log_time ； 


(4) 生存 分析 : PROC GENMOD 不能分析删截数据或 
提供其他有用的生存时间分布，如威布尔或对数正态分布。 
然而，它可以用于对具有 gamma 分布的未删截数据建模，且 
可以提供指数分布相对于其他 gamma 分布选择的统计 
检验。 
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proc genmod data = 数据名称； 

class 如果定类自变量存在的话，其之 名称； 

model DV 的名称 =IV 的名称 /dist = gamma link = log ； 


run ； 


指数生存回归也可通过加人一个次指令 SCALE 来估计。 
proc genmod data = 数据名称； 

class 如果定类自变量存在的话，其之 名称； 

model DV 的名称 =IV 的名称 /dist = gamma link = log 

scale = 1 ； 


run ； 

表 9. 1 报告的对数生存分析可以通过使用下列指令 
得出： 


data table91 ； 

input onset age wbc ? 

age_sq= age * age; / * 此指令用来生成年龄的平方 项 * / 
log_wbc= loglO(WBC)；/* 此指令用来生成 bgioiWBC)^/ 
label ⑽如二 “ 白血病发作时间 ” 

* = “ 白血球计数 ( 每千微升 )’’ 
age = “ 年龄”； 
datalines ； 

8 12 14 


/* 模型 1*/ 




附录 
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proc genmod data = tablSl ； 
model 0725^ = dist = gamma 
link = log 
scale = 1; 


run ； 


/* 模型 2*/ 

proc genmod data = table91 ； 

model onset = Log_wbc / dist = gamma 
link = log 
scale = 1 ； 


run ； 


/* 模型 3*/ 

proc genmod data = table91 ； 

model onset = logjwbc age age_sq / dist = gamma 


link = log 
scale = 1 ； 


为了获得在第 6 章后面叙述过的预测值、 pearson 和离差残 
差，我们可以用次指令来生成这些值，以评估模型的拟合优 
度。以泊松回归为例进行 说明： 

proc genmod data = 数据名称； 

class 如果定类自变量存在的话，其之 名称； 

model DV 的名称 =IV 的名称 /dist = poisson link = log ； 
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(^!*1=被用做抵消的变量名称 

output out = 使用者指明之输出文件名称 

pred = 使用者指明之预测值名称 

reschi = 使用者指明之生成 Pearson 残差名称 

resdev = 使用者指明之生成 deviance 残差 名称； 

为了打印出预测值和残差， 
proc print data =由上述生成次指令得到的生成变量名称; 


PROC GENMOD 也可以被用来分析历时的或聚集的数 


据，因为篇幅限制，我们在本书中没有讨论。也有其他的 
SAS 程序可用来估计广义线性模型的特殊种类。我们仅列 
出一些一般的用法供读者参考。 


对于线性回归 


PROC REG 和 PROC GLM * :这两 个程序都可以用来拟 

合线性回归并允许定类和连续自变量。对 REG 程序，使用 
者必须建立虚拟变量以代表定类自变量。对于 GLM 程序， 
使用者不用这么做，但必须要于 “ CLASS ” 指令句，即 GLM 的 
一个次指令，说明定类自变量。 

* GLM 这里代表所有的广义线性模型。 


对于 logistic 回归 


PROC LOGISTIC :可以 拟合二项的或定序的 ( ordinal ) 结 
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果之 logistic 回归。也可以提供许多模型建构方法并计算许 
多回归参数诊断。 

对于 probit 回归 

PROCPROBIT: 可以执行 logistic 回归、定序的 logistic 
回归及 probit 回归。当因变量是二分的 （ dichotomous ) 或多 
分的 ( polychotomous ) 而自变量为连续的， PROBIT 程序很有 
用。 probit 回归与 logistic 回归相似，除了其连结函数为正态 
(高斯)而非 logit 。 


对于生存回归 


PROC PHREG: 可以执行基于 Cox 比例风险模型的生存 
数据之回归分析，其假设了对于解释变量效应的参数形式， 
但没有指明生存函数的本质形式。它也允许不能于 PROC 
GENMOD 中处理的删截生存时间观察值。如果有区间删截 
的 ( interval - censored ) 观察值（确切的生存时间没被观察到， 
仅知道某一个区间），则可以使用 PROC LIFTEST 代替。 

有一个新开发的程序 PROC QLIM 可以估计单变量和多 
变量 logit 和 probit 模型。 
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alternative 

备择 

binomial 

二项的 

binary 

'二元 

censor 

删截 

component 

成分 

canonical 

标准 

conditional mean 

条件平均数 

covariate 

协变量 

data 

数据 

dependent variable 

因变量 

dispersion 

离散 

distribution 

分布 

effect 

效应 

error 

误差 

estimate 

估计值 

estimator 

估计量 

factor 

因素 

fit 

拟合 

gaussian 

高斯 

generalized linear model 

广义线性模型 

goodness of fit 

拟合优度 

heteroscedasticity 

异方差性 

identity 

同一性 

independent variable 

自变量 

lack of fit 

失拟 

least square 

最小二乘 

link 

连结 

likelihood 

似然 

normal distribution 

正态分布 

poisson 

泊松 

predictor 

预测(量) 
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procedure 

程序 

probability 

概率 

proportional 

比例 

ratio 

比、比率 

residual 

残差 

skewed 

偏斜的 

standard deviation 

标准差 

standard error 

标准误 

variance 

方差 



